Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 1262 papers

Title	Date	Tasks	Status	Hype
Hypothesis Generation with Large Language Models	Apr 5, 2024	Multi-Armed Bandits	CodeCode Available	2
Off-Policy Evaluation for Large Action Spaces via Embeddings	Feb 13, 2022	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	2
Doubly Robust Off-Policy Evaluation for Ranking Policies under the Cascade Behavior Model	Feb 3, 2022	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	2
Performance-bounded Online Ensemble Learning Method Based on Multi-armed bandits and Its Applications in Real-time Safety Assessment	Mar 19, 2025	Ensemble LearningMulti-Armed Bandits	CodeCode Available	1
Balans: Multi-Armed Bandits-based Adaptive Large Neighborhood Search for Mixed-Integer Programming Problem	Dec 18, 2024	Combinatorial OptimizationMulti-Armed Bandits	CodeCode Available	1
A unifying framework for generalised Bayesian online learning in non-stationary environments	Nov 15, 2024	Continual LearningMulti-Armed Bandits	CodeCode Available	1
LASeR: Learning to Adaptively Select Reward Models with Multi-Armed Bandits	Oct 2, 2024	Instruction FollowingMath	CodeCode Available	1
Discovering Minimal Reinforcement Learning Environments	Jun 18, 2024	continuous-controlContinuous Control	CodeCode Available	1
In-Context Reinforcement Learning for Variable Action Spaces	Dec 20, 2023	In-Context Reinforcement LearningMulti-Armed Bandits	CodeCode Available	1
Equitable Restless Multi-Armed Bandits: A General Framework Inspired By Digital Health	Aug 17, 2023	Decision MakingFairness	CodeCode Available	1
Competing for Shareable Arms in Multi-Player Multi-Armed Bandits	May 30, 2023	Multi-Armed Bandits	CodeCode Available	1
Implicitly normalized forecaster with clipping for linear and non-linear heavy-tailed multi-armed bandits	May 11, 2023	Multi-Armed Bandits	CodeCode Available	1
Neural Exploitation and Exploration of Contextual Bandits	May 5, 2023	Multi-Armed BanditsThompson Sampling	CodeCode Available	1
Indexability is Not Enough for Whittle: Improved, Near-Optimal Algorithms for Restless Bandits	Oct 31, 2022	Multi-Armed Bandits	CodeCode Available	1
Anytime-valid off-policy inference for contextual bandits	Oct 19, 2022	counterfactualMulti-Armed Bandits	CodeCode Available	1
Multi-agent Dynamic Algorithm Configuration	Oct 13, 2022	Multi-Armed BanditsReinforcement Learning (RL)	CodeCode Available	1
Transformer Neural Processes: Uncertainty-Aware Meta Learning Via Sequence Modeling	Jul 9, 2022	Bayesian OptimizationDecision Making	CodeCode Available	1
Langevin Monte Carlo for Contextual Bandits	Jun 22, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available	1
SplitPlace: AI Augmented Splitting and Placement of Large-Scale Neural Networks in Mobile Edge Environments	May 21, 2022	Edge-computingMulti-Armed Bandits	CodeCode Available	1
Pervasive Machine Learning for Smart Radio Environments Enabled by Reconfigurable Intelligent Surfaces	May 8, 2022	BIG-bench Machine LearningDeep Reinforcement Learning	CodeCode Available	1
Offline Neural Contextual Bandits: Pessimism, Optimization and Generalization	Nov 27, 2021	Multi-Armed Bandits	CodeCode Available	1
EE-Net: Exploitation-Exploration Neural Networks in Contextual Bandits	Oct 7, 2021	Multi-Armed BanditsThompson Sampling	CodeCode Available	1
Generalized Linear Bandits with Local Differential Privacy	Jun 7, 2021	Decision MakingMulti-Armed Bandits	CodeCode Available	1
Off-Policy Evaluation via Adaptive Weighting with Data from Contextual Bandits	Jun 3, 2021	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	1
Deep Bandits Show-Off: Simple and Efficient Exploration with Deep Networks	May 10, 2021	Efficient ExplorationMulti-Armed Bandits	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified