Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 226–250 of 1262 papers

Title	Date	Tasks	Status
Towards Domain Adaptive Neural Contextual Bandits	Jun 13, 2024	Decision MakingDomain Adaptation	—Unverified
A Federated Online Restless Bandit Framework for Cooperative Resource Allocation	Jun 12, 2024	Federated LearningMulti-Armed Bandits	—Unverified
Asymptotically Optimal Regret for Black-Box Predict-then-Optimize	Jun 12, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Sample Complexity Reduction via Policy Difference Estimation in Tabular Reinforcement Learning	Jun 11, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
A conversion theorem and minimax optimality for continuum contextual bandits	Jun 9, 2024	Multi-Armed Bandits	—Unverified
Data-Driven Upper Confidence Bounds with Near-Optimal Regret for Heavy-Tailed Bandits	Jun 9, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Adaptively Learning to Select-Rank in Online Platforms	Jun 7, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Optimal Batched Linear Bandits	Jun 6, 2024	Computational EfficiencyMulti-Armed Bandits	CodeCode Available
Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond	Jun 3, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Global Rewards in Restless Multi-Armed Bandits	Jun 2, 2024	Multi-Armed Bandits	—Unverified
A Batch Sequential Halving Algorithm without Performance Degradation	Jun 1, 2024	Computational EfficiencyMulti-Armed Bandits	—Unverified
Strategic Linear Contextual Bandits	Jun 1, 2024	Multi-Armed BanditsRecommendation Systems	—Unverified
No-Regret Learning for Fair Multi-Agent Social Welfare Optimization	May 31, 2024	FairnessMulti-Armed Bandits	—Unverified
Understanding Memory-Regret Trade-Off for Streaming Stochastic Multi-Armed Bandits	May 30, 2024	Multi-Armed Bandits	—Unverified
Multi-Armed Bandits with Network Interference	May 28, 2024	Multi-Armed Bandits	CodeCode Available
Causal Contextual Bandits with Adaptive Context	May 28, 2024	Multi-Armed Bandits	CodeCode Available
Offline Oracle-Efficient Learning for Contextual MDPs via Layerwise Exploration-Exploitation Tradeoff	May 28, 2024	Density EstimationMulti-Armed Bandits	—Unverified
Optimizing Sharpe Ratio: Risk-Adjusted Decision-Making in Multi-Armed Bandits	May 28, 2024	Decision MakingManagement	—Unverified
Multi-Player Approaches for Dueling Bandits	May 25, 2024	Multi-Armed Bandits	—Unverified
Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits	May 24, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Budgeted Recommendation with Delayed Feedback	May 19, 2024	Decision MakingMulti-Armed Bandits	—Unverified
No-Regret is not enough! Bandits with General Constraints through Adaptive Regret Minimization	May 10, 2024	Multi-Armed Bandits	—Unverified
Imprecise Multi-Armed Bandits	May 9, 2024	Multi-Armed Bandits	—Unverified
Federated Combinatorial Multi-Agent Multi-Armed Bandits	May 9, 2024	Combinatorial OptimizationData Summarization	—Unverified
Optimal Baseline Corrections for Off-Policy Contextual Bandits	May 9, 2024	Decision MakingMulti-Armed Bandits	CodeCode Available

Show:10 25 50

← PrevPage 10 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified