Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1201–1250 of 1262 papers

Title	Date	Tasks	Status
Policy Learning with Adaptively Collected Data	May 5, 2021	Multi-Armed Bandits	CodeCode Available
Neural Contextual Bandits without Regret	Jul 7, 2021	Decision MakingMulti-Armed Bandits	CodeCode Available
Meta-in-context learning in large language models	May 22, 2023	In-Context LearningMulti-Armed Bandits	CodeCode Available
Neural Contextual Bandits with UCB-based Exploration	Nov 11, 2019	Efficient ExplorationMulti-Armed Bandits	CodeCode Available
Adaptive Experimentation with Delayed Binary Feedback	Feb 2, 2022	Multi-Armed Banditsvalid	CodeCode Available
Group Meritocratic Fairness in Linear Contextual Bandits	Jun 7, 2022	FairnessMulti-Armed Bandits	CodeCode Available
Neural Linear Bandits: Overcoming Catastrophic Forgetting through Likelihood Matching	Sep 25, 2019	Efficient ExplorationMulti-Armed Bandits	CodeCode Available
Power Constrained Bandits	Apr 13, 2020	Decision MakingMulti-Armed Bandits	CodeCode Available
Batched Multi-armed Bandits Problem	Apr 3, 2019	Multi-Armed Bandits	CodeCode Available
Harnessing the Power of Federated Learning in Federated Contextual Bandits	Dec 26, 2023	Decision MakingFederated Learning	CodeCode Available
Truncated LinUCB for Stochastic Linear Bandits	Feb 23, 2022	Multi-Armed Bandits	CodeCode Available
Adaptive Estimator Selection for Off-Policy Evaluation	Feb 18, 2020	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Practical Bayesian Learning of Neural Networks via Adaptive Optimisation Methods	Nov 8, 2018	Multi-Armed BanditsThompson Sampling	CodeCode Available
NeuroSep-CP-LCB: A Deep Learning-based Contextual Multi-armed Bandit Algorithm with Uncertainty Quantification for Early Sepsis Prediction	Mar 20, 2025	Conformal PredictionDecision Making	CodeCode Available
Heterogeneous Multi-player Multi-armed Bandits: Closing the Gap and Generalization	Oct 27, 2021	Efficient ExplorationMulti-Armed Bandits	CodeCode Available
A Survey on Contextual Multi-armed Bandits	Aug 13, 2015	Multi-Armed BanditsSurvey	CodeCode Available
Practical Calculation of Gittins Indices for Multi-armed Bandits	Sep 11, 2019	Multi-Armed Bandits	CodeCode Available
Stay With Me: Lifetime Maximization Through Heteroscedastic Linear Bandits With Reneging	Oct 29, 2018	Decision MakingMulti-Armed Bandits	CodeCode Available
A Field Test of Bandit Algorithms for Recommendations: Understanding the Validity of Assumptions on Human Preferences in Multi-armed Bandits	Apr 16, 2023	Multi-Armed BanditsRecommendation Systems	CodeCode Available
Hierarchical Multi-Armed Bandits for the Concurrent Intelligent Tutoring of Concepts and Problems of Varying Difficulty Levels	Aug 10, 2024	Knowledge TracingMulti-Armed Bandits	CodeCode Available
Towards the D-Optimal Online Experiment Design for Recommender Selection	Oct 23, 2021	Multi-Armed Bandits	CodeCode Available
Distributionally Robust Policy Evaluation under General Covariate Shift in Contextual Bandits	Jan 21, 2024	Multi-Armed Banditsregression	CodeCode Available
When is Off-Policy Evaluation (Reward Modeling) Useful in Contextual Bandits? A Data-Centric Perspective	Nov 23, 2023	Large Language ModelMulti-Armed Bandits	CodeCode Available
Minimum Empirical Divergence for Sub-Gaussian Linear Bandits	Oct 31, 2024	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Regret Bounds for Thompson Sampling in Episodic Restless Bandit Problems	May 29, 2019	Multi-Armed BanditsThompson Sampling	CodeCode Available
Mitigating Exposure Bias in Online Learning to Rank Recommendation: A Novel Reward Model for Cascading Bandits	Aug 8, 2024	Exposure FairnessFairness	CodeCode Available
Model-free Reinforcement Learning in Infinite-horizon Average-reward Markov Decision Processes	Oct 15, 2019	Multi-Armed Banditsreinforcement-learning	CodeCode Available
Nonparametric Gaussian Mixture Models for the Multi-Armed Bandit	Aug 8, 2018	Density EstimationMulti-Armed Bandits	CodeCode Available
Taming the Monster: A Fast and Simple Algorithm for Contextual Bandits	Feb 4, 2014	General ClassificationMulti-Armed Bandits	CodeCode Available
Two-Stage Neural Contextual Bandits for Personalised News Recommendation	Jun 26, 2022	Computational EfficiencyMulti-Armed Bandits	CodeCode Available
Human in the Loop Adaptive Optimization for Improved Time Series Forecasting	May 21, 2025	Language ModelingLanguage Modelling	CodeCode Available
Adversarial Attacks on Combinatorial Multi-Armed Bandits	Oct 8, 2023	Multi-Armed Bandits	CodeCode Available
Machine Teaching of Active Sequential Learners	Sep 8, 2018	Multi-Armed BanditsProbabilistic Programming	CodeCode Available
Doubly-Robust Lasso Bandit	Jul 26, 2019	Multi-Armed BanditsRecommendation Systems	CodeCode Available
A Survey of Online Experiment Design with the Stochastic Multi-Armed Bandit	Oct 2, 2015	Decision MakingMulti-Armed Bandits	CodeCode Available
Thompson Sampling via Local Uncertainty	Oct 30, 2019	Decision MakingMulti-Armed Bandits	CodeCode Available
Identification of the Generalized Condorcet Winner in Multi-dueling Bandits	Dec 1, 2021	Multi-Armed Bandits	CodeCode Available
SIC-MMAB: Synchronisation Involves Communication in Multiplayer Multi-Armed Bandits	Sep 21, 2018	Multi-Armed Bandits	CodeCode Available
Doubly Robust Policy Evaluation and Learning	Mar 23, 2011	Decision MakingMulti-Armed Bandits	CodeCode Available
Dual-Mandate Patrols: Multi-Armed Bandits for Green Security	Sep 14, 2020	Multi-Armed Bandits	CodeCode Available
Addressing the Long-term Impact of ML Decisions via Policy Regret	Jun 2, 2021	Multi-Armed Bandits	CodeCode Available
Test-Time Scaling of Diffusion Models via Noise Trajectory Search	May 24, 2025	DenoisingImage Generation	CodeCode Available
Regulating Greed Over Time in Multi-Armed Bandits	May 21, 2015	Multi-Armed BanditsTime Series Analysis	CodeCode Available
Safe Exploration for Optimizing Contextual Bandits	Feb 2, 2020	counterfactualInformation Retrieval	CodeCode Available
Simulated Contextual Bandits for Personalization Tasks from Recommendation Datasets	Oct 12, 2022	BenchmarkingMulti-Armed Bandits	CodeCode Available
Reinforcement Learning for Physical Layer Communications	Jun 22, 2021	Deep Reinforcement LearningMulti-Armed Bandits	CodeCode Available
Simultaneously Achieving Group Exposure Fairness and Within-Group Meritocracy in Stochastic Bandits	Feb 8, 2024	AttributeExposure Fairness	CodeCode Available
Mostly Exploration-Free Algorithms for Contextual Bandits	Apr 28, 2017	DiversityMulti-Armed Bandits	CodeCode Available
Scalable Exploration via Ensemble++	Jul 18, 2024	Computational EfficiencyDecision Making	CodeCode Available
The Assistive Multi-Armed Bandit	Jan 24, 2019	Multi-Armed Bandits	CodeCode Available

Show:10 25 50

← PrevPage 25 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified