Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 1262 papers

Title	Date	Tasks	Status
A General Reduction for High-Probability Analysis with General Light-Tailed Distributions	Mar 5, 2024	Multi-Armed BanditsStochastic Optimization	—Unverified
Catoni Contextual Bandits are Robust to Heavy-tailed Rewards	Feb 4, 2025	Multi-Armed Bandits	—Unverified
An Optimistic Algorithm for Online Convex Optimization with Adversarial Constraints	Dec 11, 2024	Multi-Armed Bandits	—Unverified
ADARES: Adaptive Resource Management for Virtual Machines	Dec 5, 2018	ManagementMulti-Armed Bandits	—Unverified
AdaLinUCB: Opportunistic Learning for Contextual Bandits	Feb 20, 2019	Multi-Armed Bandits	—Unverified
Byzantine-Resilient Decentralized Multi-Armed Bandits	Oct 11, 2023	Multi-Armed BanditsRecommendation Systems	—Unverified
An optimal learning method for developing personalized treatment regimes	Jul 6, 2016	ClusteringMulti-Armed Bandits	—Unverified
Bypassing the Simulator: Near-Optimal Adversarial Linear Contextual Bandits	Sep 2, 2023	Computational EfficiencyMulti-Armed Bandits	—Unverified
Bypassing the Monster: A Faster and Simpler Optimal Algorithm for Contextual Bandits under Realizability	Mar 28, 2020	Multi-Armed Banditsregression	—Unverified
An Optimal Algorithm for Multiplayer Multi-Armed Bandits	Sep 28, 2019	Multi-Armed Bandits	—Unverified
Building Bridges: Viewing Active Learning from the Multi-Armed Bandit Lens	Sep 26, 2013	Active LearningBinary Classification	—Unverified
Budgeted Recommendation with Delayed Feedback	May 19, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Tsallis-INF: An Optimal Algorithm for Stochastic and Adversarial Bandits	Jul 19, 2018	Multi-Armed BanditsThompson Sampling	—Unverified
Budgeted Combinatorial Multi-Armed Bandits	Feb 8, 2022	Multi-Armed Bandits	—Unverified
An Optimal Algorithm for Adversarial Bandits with Arbitrary Delays	Oct 14, 2019	Multi-Armed Bandits	—Unverified
Adaptive, Robust and Scalable Bayesian Filtering for Online Learning	May 12, 2025	Continual LearningMulti-Armed Bandits	—Unverified
Active Velocity Estimation using Light Curtains via Self-Supervised Multi-Armed Bandits	Feb 24, 2023	Multi-Armed BanditsNavigate	—Unverified
Achieving adaptivity and optimality for multi-armed bandits using Exponential-Kullback Leibler Maillard Sampling	Feb 20, 2025	Multi-Armed BanditsThompson Sampling	—Unverified
Budget-Constrained Multi-Armed Bandits with Multiple Plays	Nov 16, 2017	Multi-Armed Bandits	—Unverified
Bridging Offline Reinforcement Learning and Imitation Learning: A Tale of Pessimism	Mar 22, 2021	Imitation LearningMulti-Armed Bandits	—Unverified
An Instrumental Value for Data Production and its Application to Data Pricing	Dec 24, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Breaking the T Barrier: Instance-Independent Logarithmic Regret in Stochastic Contextual Linear Bandits	May 19, 2022	Multi-Armed Banditsparameter estimation	—Unverified
Breaking the (1/Δ_2) Barrier: Better Batched Best Arm Identification with Adaptive Grids	Jan 29, 2025	Multi-Armed Bandits	—Unverified
An Instance-Dependent Analysis for the Cooperative Multi-Player Multi-Armed Bandit	Nov 8, 2021	Multi-Armed Bandits	—Unverified
Adaptive Regret for Bandits Made Possible: Two Queries Suffice	Jan 17, 2024	Hyperparameter OptimizationMulti-Armed Bandits	—Unverified
Bounded Regret for Finitely Parameterized Multi-Armed Bandits	Mar 3, 2020	Multi-Armed Bandits	—Unverified
Boundary Crossing Probabilities for General Exponential Families	May 24, 2017	Multi-Armed Bandits	—Unverified
An Improved Relaxation for Oracle-Efficient Adversarial Contextual Bandits	Oct 29, 2023	Multi-Armed Bandits	—Unverified
Bootstrapping Upper Confidence Bound	Jun 12, 2019	Decision MakingMulti-Armed Bandits	—Unverified
An Exploration-free Method for a Linear Stochastic Bandit Driven by a Linear Gaussian Dynamical System	Apr 4, 2025	Hyperparameter OptimizationMulti-Armed Bandits	—Unverified
Active Search for Sparse Signals with Region Sensing	Dec 2, 2016	Bayesian OptimizationCompressive Sensing	—Unverified
Boltzmann Exploration Done Right	May 29, 2017	Decision MakingDecision Making Under Uncertainty	—Unverified
BOF-UCB: A Bayesian-Optimistic Frequentist Algorithm for Non-Stationary Contextual Bandits	Jul 7, 2023	Decision MakingMulti-Armed Bandits	—Unverified
BISTRO: An Efficient Relaxation-Based Method for Contextual Bandits	Feb 6, 2016	Multi-Armed Bandits	—Unverified
Bi-Criteria Optimization for Combinatorial Bandits: Sublinear Regret and Constraint Violation under Bandit Feedback	Mar 15, 2025	Multi-Armed Bandits	—Unverified
A New Benchmark for Online Learning with Budget-Balancing Constraints	Mar 19, 2025	Multi-Armed Bandits	—Unverified
Beyond UCB: Optimal and Efficient Contextual Bandits with Regression Oracles	Feb 12, 2020	Multi-Armed Banditsregression	—Unverified
Beyond the Hazard Rate: More Perturbation Algorithms for Adversarial Multi-armed Bandits	Feb 17, 2017	Multi-Armed Bandits	—Unverified
Better Algorithms for Stochastic Bandits with Adversarial Corruptions	Feb 22, 2019	Multi-Armed Bandits	—Unverified
Best-of-Both-Worlds Linear Contextual Bandits	Dec 27, 2023	Multi-Armed Bandits	—Unverified
A New Algorithm for Non-stationary Contextual Bandits: Efficient, Optimal, and Parameter-free	Feb 3, 2019	Multi-Armed Bandits	—Unverified
Adaptively Learning to Select-Rank in Online Platforms	Jun 7, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Active Search for High Recall: a Non-Stationary Extension of Thompson Sampling	Dec 27, 2017	Multi-Armed BanditsThompson Sampling	—Unverified
A Central Limit Theorem, Loss Aversion and Multi-Armed Bandits	Jun 10, 2021	Multi-Armed Bandits	—Unverified
A Batch Sequential Halving Algorithm without Performance Degradation	Jun 1, 2024	Computational EfficiencyMulti-Armed Bandits	—Unverified
Best-of-Both-Worlds Algorithms for Linear Contextual Bandits	Dec 24, 2023	Multi-Armed Bandits	—Unverified
An Empirical Evaluation of Thompson Sampling	Dec 1, 2011	Multi-Armed BanditsThompson Sampling	—Unverified
Best Arm Identification under Additive Transfer Bandits	Dec 8, 2021	Multi-Armed BanditsTransfer Learning	—Unverified
Best Arm Identification in Stochastic Bandits: Beyond β-optimality	Jan 10, 2023	Computational EfficiencyMulti-Armed Bandits	—Unverified
An Empirical Evaluation of Federated Contextual Bandit Algorithms	Mar 17, 2023	Federated LearningMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 7 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified