Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 1262 papers

Title	Date	Tasks	Status	Hype
Hypothesis Generation with Large Language Models	Apr 5, 2024	Multi-Armed Bandits	CodeCode Available	2
Off-Policy Evaluation for Large Action Spaces via Embeddings	Feb 13, 2022	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	2
Doubly Robust Off-Policy Evaluation for Ranking Policies under the Cascade Behavior Model	Feb 3, 2022	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	2
Discovering Minimal Reinforcement Learning Environments	Jun 18, 2024	continuous-controlContinuous Control	CodeCode Available	1
Multi-agent Dynamic Algorithm Configuration	Oct 13, 2022	Multi-Armed BanditsReinforcement Learning (RL)	CodeCode Available	1
Efficient Contextual Bandits with Continuous Actions	Jun 10, 2020	Multi-Armed Bandits	CodeCode Available	1
Offline Neural Contextual Bandits: Pessimism, Optimization and Generalization	Nov 27, 2021	Multi-Armed Bandits	CodeCode Available	1
Deep Bandits Show-Off: Simple and Efficient Exploration with Deep Networks	May 10, 2021	Efficient ExplorationMulti-Armed Bandits	CodeCode Available	1
Implicitly normalized forecaster with clipping for linear and non-linear heavy-tailed multi-armed bandits	May 11, 2023	Multi-Armed Bandits	CodeCode Available	1
Neural Thompson Sampling	Oct 2, 2020	Multi-Armed BanditsThompson Sampling	CodeCode Available	1
Unified Models of Human Behavioral Agents in Bandits, Contextual Bandits and RL	May 10, 2020	Decision MakingLifelong learning	CodeCode Available	1
Off-Policy Evaluation via Adaptive Weighting with Data from Contextual Bandits	Jun 3, 2021	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	1
In-Context Reinforcement Learning for Variable Action Spaces	Dec 20, 2023	In-Context Reinforcement LearningMulti-Armed Bandits	CodeCode Available	1
Equitable Restless Multi-Armed Bandits: A General Framework Inspired By Digital Health	Aug 17, 2023	Decision MakingFairness	CodeCode Available	1
BanditPAM: Almost Linear Time k-Medoids Clustering via Multi-Armed Bandits	Dec 1, 2020	ClusteringMulti-Armed Bandits	CodeCode Available	1
An empirical evaluation of active inference in multi-armed bandits	Jan 21, 2021	BIG-bench Machine LearningDecision Making	CodeCode Available	1
Carousel Personalization in Music Streaming Apps with Contextual Bandits	Sep 14, 2020	Multi-Armed Bandits	CodeCode Available	1
Multiplayer Multi-armed Bandits for Optimal Assignment in Heterogeneous Networks	Jan 12, 2019	Multi-Armed Bandits	CodeCode Available	1
Federated Multi-Armed Bandits	Jan 28, 2021	Federated LearningMulti-Armed Bandits	CodeCode Available	1
Generalized Linear Bandits with Local Differential Privacy	Jun 7, 2021	Decision MakingMulti-Armed Bandits	CodeCode Available	1
Langevin Monte Carlo for Contextual Bandits	Jun 22, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available	1
Neural Exploitation and Exploration of Contextual Bandits	May 5, 2023	Multi-Armed BanditsThompson Sampling	CodeCode Available	1
Pervasive Machine Learning for Smart Radio Environments Enabled by Reconfigurable Intelligent Surfaces	May 8, 2022	BIG-bench Machine LearningDeep Reinforcement Learning	CodeCode Available	1
Transformer Neural Processes: Uncertainty-Aware Meta Learning Via Sequence Modeling	Jul 9, 2022	Bayesian OptimizationDecision Making	CodeCode Available	1
SplitPlace: AI Augmented Splitting and Placement of Large-Scale Neural Networks in Mobile Edge Environments	May 21, 2022	Edge-computingMulti-Armed Bandits	CodeCode Available	1
Performance-bounded Online Ensemble Learning Method Based on Multi-armed bandits and Its Applications in Real-time Safety Assessment	Mar 19, 2025	Ensemble LearningMulti-Armed Bandits	CodeCode Available	1
LASeR: Learning to Adaptively Select Reward Models with Multi-Armed Bandits	Oct 2, 2024	Instruction FollowingMath	CodeCode Available	1
Indexability is Not Enough for Whittle: Improved, Near-Optimal Algorithms for Restless Bandits	Oct 31, 2022	Multi-Armed Bandits	CodeCode Available	1
Hierarchical Adaptive Contextual Bandits for Resource Constraint based Recommendation	Apr 2, 2020	Multi-Armed Bandits	CodeCode Available	1
A Modern Introduction to Online Learning	Dec 31, 2019	AllMulti-Armed Bandits	CodeCode Available	1
Anytime-valid off-policy inference for contextual bandits	Oct 19, 2022	counterfactualMulti-Armed Bandits	CodeCode Available	1
A unifying framework for generalised Bayesian online learning in non-stationary environments	Nov 15, 2024	Continual LearningMulti-Armed Bandits	CodeCode Available	1
Balans: Multi-Armed Bandits-based Adaptive Large Neighborhood Search for Mixed-Integer Programming Problem	Dec 18, 2024	Combinatorial OptimizationMulti-Armed Bandits	CodeCode Available	1
BanditPAM: Almost Linear Time k-Medoids Clustering via Multi-Armed Bandits	Jun 11, 2020	ClusteringMulti-Armed Bandits	CodeCode Available	1
EE-Net: Exploitation-Exploration Neural Networks in Contextual Bandits	Oct 7, 2021	Multi-Armed BanditsThompson Sampling	CodeCode Available	1
Competing for Shareable Arms in Multi-Player Multi-Armed Bandits	May 30, 2023	Multi-Armed Bandits	CodeCode Available	1
Deep Reinforcement Learning based Recommendation with Explicit User-Item Interactions Modeling	Oct 29, 2018	Collaborative FilteringDecision Making	CodeCode Available	1
Adapting to Delays and Data in Adversarial Multi-Armed Bandits	Oct 12, 2020	Multi-Armed Bandits	—Unverified	0
A Classification View on Meta Learning Bandits	Apr 6, 2025	ClassificationMeta-Learning	—Unverified	0
Context in Public Health for Underserved Communities: A Bayesian Approach to Online Restless Bandits	Feb 7, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified	0
Adapting Bandit Algorithms for Settings with Sequentially Available Arms	Sep 30, 2021	ManagementMulti-Armed Bandits	—Unverified	0
AdaptEx: A Self-Service Contextual Bandit Platform	Aug 8, 2023	Multi-Armed BanditsThompson Sampling	—Unverified	0
Achieving User-Side Fairness in Contextual Bandits	Oct 22, 2020	FairnessMulti-Armed Bandits	—Unverified	0
α-Fair Contextual Bandits	Oct 22, 2023	Multi-Armed BanditsRecommendation Systems	—Unverified	0
AdaLinUCB: Opportunistic Learning for Contextual Bandits	Feb 20, 2019	Multi-Armed Bandits	—Unverified	0
Active Velocity Estimation using Light Curtains via Self-Supervised Multi-Armed Bandits	Feb 24, 2023	Multi-Armed BanditsNavigate	—Unverified	0
Achieving adaptivity and optimality for multi-armed bandits using Exponential-Kullback Leibler Maillard Sampling	Feb 20, 2025	Multi-Armed BanditsThompson Sampling	—Unverified	0
Active Search for Sparse Signals with Region Sensing	Dec 2, 2016	Bayesian OptimizationCompressive Sensing	—Unverified	0
A Batch Sequential Halving Algorithm without Performance Degradation	Jun 1, 2024	Computational EfficiencyMulti-Armed Bandits	—Unverified	0
Active Search for High Recall: a Non-Stationary Extension of Thompson Sampling	Dec 27, 2017	Multi-Armed BanditsThompson Sampling	—Unverified	0

Show:10 25 50

← PrevPage 1 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified