Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 1262 papers

Title	Date	Tasks	Status
Adaptive, Robust and Scalable Bayesian Filtering for Online Learning	May 12, 2025	Continual LearningMulti-Armed Bandits	—Unverified
Active Velocity Estimation using Light Curtains via Self-Supervised Multi-Armed Bandits	Feb 24, 2023	Multi-Armed BanditsNavigate	—Unverified
ADARES: Adaptive Resource Management for Virtual Machines	Dec 5, 2018	ManagementMulti-Armed Bandits	—Unverified
AdaLinUCB: Opportunistic Learning for Contextual Bandits	Feb 20, 2019	Multi-Armed Bandits	—Unverified
A Decision-Language Model (DLM) for Dynamic Restless Multi-Armed Bandit Tasks in Public Health	Feb 22, 2024	Language ModelingLanguage Modelling	—Unverified
Bandits with Knapsacks beyond the Worst-Case	Feb 1, 2020	Multi-Armed Bandits	—Unverified
Adversarial Attacks on Adversarial Bandits	Jan 30, 2023	Multi-Armed BanditsRecommendation Systems	—Unverified
Adapting Bandit Algorithms for Settings with Sequentially Available Arms	Sep 30, 2021	ManagementMulti-Armed Bandits	—Unverified
Adversarial Attacks on Cooperative Multi-agent Bandits	Nov 3, 2023	Multi-Armed Bandits	—Unverified
Adversarial Attacks on Linear Contextual Bandits	Feb 10, 2020	Multi-Armed BanditsRecommendation Systems	—Unverified
Adversarial Bandits with Knapsacks	Nov 28, 2018	Multi-Armed BanditsScheduling	—Unverified
Adversarial Contextual Bandits Go Kernelized	Oct 2, 2023	Decision MakingMulti-Armed Bandits	—Unverified
A One-Size-Fits-All Solution to Conservative Bandit Problems	Dec 14, 2020	AllMulti-Armed Bandits	—Unverified
A Central Limit Theorem, Loss Aversion and Multi-Armed Bandits	Jun 10, 2021	Multi-Armed Bandits	—Unverified
Approximate Function Evaluation via Multi-Armed Bandits	Mar 18, 2022	Multi-Armed Bandits	—Unverified
Approximately Stationary Bandits with Knapsacks	Feb 28, 2023	Multi-Armed Bandits	—Unverified
A Reinforcement-Learning-Enhanced LLM Framework for Automated A/B Testing in Personalized Marketing	May 27, 2025	MarketingMulti-Armed Bandits	—Unverified
A Sleeping, Recovering Bandit Algorithm for Optimizing Recurring Notifications	Aug 23, 2020	Multi-Armed Bandits	—Unverified
Active Reinforcement Learning: Observing Rewards at a Cost	Nov 13, 2020	Multi-Armed Banditsreinforcement-learning	—Unverified
Adaptive Learning Rate for Follow-the-Regularized-Leader: Competitive Analysis and Best-of-Both-Worlds	Mar 1, 2024	Decision MakingMulti-Armed Bandits	—Unverified
An Optimistic Algorithm for Online Convex Optimization with Adversarial Constraints	Dec 11, 2024	Multi-Armed Bandits	—Unverified
Active Inference for Autonomous Decision-Making with Contextual Multi-Armed Bandits	Sep 19, 2022	Decision MakingDecision Making Under Uncertainty	—Unverified
Adaptive Exploration in Linear Contextual Bandit	Oct 15, 2019	Decision MakingMulti-Armed Bandits	—Unverified
Accurate and Fast Federated Learning via Combinatorial Multi-Armed Bandits	Dec 6, 2020	BIG-bench Machine LearningFederated Learning	—Unverified
A General Reduction for High-Probability Analysis with General Light-Tailed Distributions	Mar 5, 2024	Multi-Armed BanditsStochastic Optimization	—Unverified
A Bandit Approach to Sequential Experimental Design with False Discovery Control	Dec 1, 2018	Drug DiscoveryExperimental Design	—Unverified
Access Probability Optimization in RACH: A Multi-Armed Bandits Approach	Apr 18, 2025	Multi-Armed Bandits	—Unverified
An Optimal Algorithm for Multiplayer Multi-Armed Bandits	Sep 28, 2019	Multi-Armed Bandits	—Unverified
Almost Optimal Batch-Regret Tradeoff for Batch Linear Contextual Bandits	Oct 15, 2021	Multi-Armed Bandits	—Unverified
Adaptive Endpointing with Deep Contextual Multi-armed Bandits	Mar 23, 2023	Multi-Armed Bandits	—Unverified
A Correction of Pseudo Log-Likelihood Method	Mar 26, 2024	Multi-Armed Bandits	—Unverified
Almost Boltzmann Exploration	Jan 25, 2019	Multi-Armed BanditsReinforcement Learning	—Unverified
A Model Selection Approach for Corruption Robust Reinforcement Learning	Oct 7, 2021	Model SelectionMulti-Armed Bandits	—Unverified
Algorithms with Logarithmic or Sublinear Regret for Constrained Contextual Bandits	Apr 27, 2015	Multi-Armed Bandits	—Unverified
An Adaptive Method for Contextual Stochastic Multi-armed Bandits with Rewards Generated by a Linear Dynamical System	Jun 14, 2024	Multi-Armed Bandits	—Unverified
Analysis of Thompson Sampling for Partially Observable Contextual Multi-Armed Bandits	Oct 23, 2021	Decision MakingMulti-Armed Bandits	—Unverified
An Analysis of Reinforcement Learning for Malaria Control	Jul 19, 2021	Multi-Armed BanditsOpenAI Gym	—Unverified
An Analysis of the Value of Information when Exploring Stochastic, Discrete Multi-Armed Bandits	Oct 8, 2017	Multi-Armed Bandits	—Unverified
A Near-Optimal Change-Detection Based Algorithm for Piecewise-Stationary Combinatorial Semi-Bandits	Aug 27, 2019	Change DetectionMulti-Armed Bandits	—Unverified
An efficient algorithm for contextual bandits with knapsacks, and an extension to concave objectives	Jun 10, 2015	Multi-Armed BanditsOpen-Ended Question Answering	—Unverified
An Efficient Algorithm for Deep Stochastic Contextual Bandits	Apr 12, 2021	Multi-Armed BanditsStochastic Optimization	—Unverified
Adaptive Discretization against an Adversary: Lipschitz bandits, Dynamic Pricing, and Auction Tuning	Jun 22, 2020	Multi-Armed Bandits	—Unverified
An Empirical Evaluation of Federated Contextual Bandit Algorithms	Mar 17, 2023	Federated LearningMulti-Armed Bandits	—Unverified
An Empirical Evaluation of Thompson Sampling	Dec 1, 2011	Multi-Armed BanditsThompson Sampling	—Unverified
Adaptively Learning to Select-Rank in Online Platforms	Jun 7, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
A New Algorithm for Non-stationary Contextual Bandits: Efficient, Optimal, and Parameter-free	Feb 3, 2019	Multi-Armed Bandits	—Unverified
A New Benchmark for Online Learning with Budget-Balancing Constraints	Mar 19, 2025	Multi-Armed Bandits	—Unverified
Active Search for High Recall: a Non-Stationary Extension of Thompson Sampling	Dec 27, 2017	Multi-Armed BanditsThompson Sampling	—Unverified
An Exploration-free Method for a Linear Stochastic Bandit Driven by a Linear Gaussian Dynamical System	Apr 4, 2025	Hyperparameter OptimizationMulti-Armed Bandits	—Unverified
Tsallis-INF: An Optimal Algorithm for Stochastic and Adversarial Bandits	Jul 19, 2018	Multi-Armed BanditsThompson Sampling	—Unverified

Show:10 25 50

← PrevPage 2 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified