Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1226–1250 of 1262 papers

Title	Date	Tasks	Status
Mitigating Exposure Bias in Online Learning to Rank Recommendation: A Novel Reward Model for Cascading Bandits	Aug 8, 2024	Exposure FairnessFairness	CodeCode Available
Model-free Reinforcement Learning in Infinite-horizon Average-reward Markov Decision Processes	Oct 15, 2019	Multi-Armed Banditsreinforcement-learning	CodeCode Available
Nonparametric Gaussian Mixture Models for the Multi-Armed Bandit	Aug 8, 2018	Density EstimationMulti-Armed Bandits	CodeCode Available
Taming the Monster: A Fast and Simple Algorithm for Contextual Bandits	Feb 4, 2014	General ClassificationMulti-Armed Bandits	CodeCode Available
Two-Stage Neural Contextual Bandits for Personalised News Recommendation	Jun 26, 2022	Computational EfficiencyMulti-Armed Bandits	CodeCode Available
Human in the Loop Adaptive Optimization for Improved Time Series Forecasting	May 21, 2025	Language ModelingLanguage Modelling	CodeCode Available
Adversarial Attacks on Combinatorial Multi-Armed Bandits	Oct 8, 2023	Multi-Armed Bandits	CodeCode Available
Machine Teaching of Active Sequential Learners	Sep 8, 2018	Multi-Armed BanditsProbabilistic Programming	CodeCode Available
Doubly-Robust Lasso Bandit	Jul 26, 2019	Multi-Armed BanditsRecommendation Systems	CodeCode Available
A Survey of Online Experiment Design with the Stochastic Multi-Armed Bandit	Oct 2, 2015	Decision MakingMulti-Armed Bandits	CodeCode Available
Thompson Sampling via Local Uncertainty	Oct 30, 2019	Decision MakingMulti-Armed Bandits	CodeCode Available
Identification of the Generalized Condorcet Winner in Multi-dueling Bandits	Dec 1, 2021	Multi-Armed Bandits	CodeCode Available
SIC-MMAB: Synchronisation Involves Communication in Multiplayer Multi-Armed Bandits	Sep 21, 2018	Multi-Armed Bandits	CodeCode Available
Doubly Robust Policy Evaluation and Learning	Mar 23, 2011	Decision MakingMulti-Armed Bandits	CodeCode Available
Dual-Mandate Patrols: Multi-Armed Bandits for Green Security	Sep 14, 2020	Multi-Armed Bandits	CodeCode Available
Addressing the Long-term Impact of ML Decisions via Policy Regret	Jun 2, 2021	Multi-Armed Bandits	CodeCode Available
Test-Time Scaling of Diffusion Models via Noise Trajectory Search	May 24, 2025	DenoisingImage Generation	CodeCode Available
Regulating Greed Over Time in Multi-Armed Bandits	May 21, 2015	Multi-Armed BanditsTime Series Analysis	CodeCode Available
Safe Exploration for Optimizing Contextual Bandits	Feb 2, 2020	counterfactualInformation Retrieval	CodeCode Available
Simulated Contextual Bandits for Personalization Tasks from Recommendation Datasets	Oct 12, 2022	BenchmarkingMulti-Armed Bandits	CodeCode Available
Reinforcement Learning for Physical Layer Communications	Jun 22, 2021	Deep Reinforcement LearningMulti-Armed Bandits	CodeCode Available
Simultaneously Achieving Group Exposure Fairness and Within-Group Meritocracy in Stochastic Bandits	Feb 8, 2024	AttributeExposure Fairness	CodeCode Available
Mostly Exploration-Free Algorithms for Contextual Bandits	Apr 28, 2017	DiversityMulti-Armed Bandits	CodeCode Available
Scalable Exploration via Ensemble++	Jul 18, 2024	Computational EfficiencyDecision Making	CodeCode Available
The Assistive Multi-Armed Bandit	Jan 24, 2019	Multi-Armed Bandits	CodeCode Available

Show:10 25 50

← PrevPage 50 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified