Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 1262 papers

Title	Date	Tasks	Status	Hype
Hypothesis Generation with Large Language Models	Apr 5, 2024	Multi-Armed Bandits	CodeCode Available	2
Off-Policy Evaluation for Large Action Spaces via Embeddings	Feb 13, 2022	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	2
Doubly Robust Off-Policy Evaluation for Ranking Policies under the Cascade Behavior Model	Feb 3, 2022	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	2
Performance-bounded Online Ensemble Learning Method Based on Multi-armed bandits and Its Applications in Real-time Safety Assessment	Mar 19, 2025	Ensemble LearningMulti-Armed Bandits	CodeCode Available	1
Balans: Multi-Armed Bandits-based Adaptive Large Neighborhood Search for Mixed-Integer Programming Problem	Dec 18, 2024	Combinatorial OptimizationMulti-Armed Bandits	CodeCode Available	1
A unifying framework for generalised Bayesian online learning in non-stationary environments	Nov 15, 2024	Continual LearningMulti-Armed Bandits	CodeCode Available	1
LASeR: Learning to Adaptively Select Reward Models with Multi-Armed Bandits	Oct 2, 2024	Instruction FollowingMath	CodeCode Available	1
Discovering Minimal Reinforcement Learning Environments	Jun 18, 2024	continuous-controlContinuous Control	CodeCode Available	1
In-Context Reinforcement Learning for Variable Action Spaces	Dec 20, 2023	In-Context Reinforcement LearningMulti-Armed Bandits	CodeCode Available	1
Equitable Restless Multi-Armed Bandits: A General Framework Inspired By Digital Health	Aug 17, 2023	Decision MakingFairness	CodeCode Available	1
Competing for Shareable Arms in Multi-Player Multi-Armed Bandits	May 30, 2023	Multi-Armed Bandits	CodeCode Available	1
Implicitly normalized forecaster with clipping for linear and non-linear heavy-tailed multi-armed bandits	May 11, 2023	Multi-Armed Bandits	CodeCode Available	1
Neural Exploitation and Exploration of Contextual Bandits	May 5, 2023	Multi-Armed BanditsThompson Sampling	CodeCode Available	1
Indexability is Not Enough for Whittle: Improved, Near-Optimal Algorithms for Restless Bandits	Oct 31, 2022	Multi-Armed Bandits	CodeCode Available	1
Anytime-valid off-policy inference for contextual bandits	Oct 19, 2022	counterfactualMulti-Armed Bandits	CodeCode Available	1
Multi-agent Dynamic Algorithm Configuration	Oct 13, 2022	Multi-Armed BanditsReinforcement Learning (RL)	CodeCode Available	1
Transformer Neural Processes: Uncertainty-Aware Meta Learning Via Sequence Modeling	Jul 9, 2022	Bayesian OptimizationDecision Making	CodeCode Available	1
Langevin Monte Carlo for Contextual Bandits	Jun 22, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available	1
SplitPlace: AI Augmented Splitting and Placement of Large-Scale Neural Networks in Mobile Edge Environments	May 21, 2022	Edge-computingMulti-Armed Bandits	CodeCode Available	1
Pervasive Machine Learning for Smart Radio Environments Enabled by Reconfigurable Intelligent Surfaces	May 8, 2022	BIG-bench Machine LearningDeep Reinforcement Learning	CodeCode Available	1
Offline Neural Contextual Bandits: Pessimism, Optimization and Generalization	Nov 27, 2021	Multi-Armed Bandits	CodeCode Available	1
EE-Net: Exploitation-Exploration Neural Networks in Contextual Bandits	Oct 7, 2021	Multi-Armed BanditsThompson Sampling	CodeCode Available	1
Generalized Linear Bandits with Local Differential Privacy	Jun 7, 2021	Decision MakingMulti-Armed Bandits	CodeCode Available	1
Off-Policy Evaluation via Adaptive Weighting with Data from Contextual Bandits	Jun 3, 2021	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	1
Deep Bandits Show-Off: Simple and Efficient Exploration with Deep Networks	May 10, 2021	Efficient ExplorationMulti-Armed Bandits	CodeCode Available	1
Federated Multi-Armed Bandits	Jan 28, 2021	Federated LearningMulti-Armed Bandits	CodeCode Available	1
An empirical evaluation of active inference in multi-armed bandits	Jan 21, 2021	BIG-bench Machine LearningDecision Making	CodeCode Available	1
BanditPAM: Almost Linear Time k-Medoids Clustering via Multi-Armed Bandits	Dec 1, 2020	ClusteringMulti-Armed Bandits	CodeCode Available	1
Neural Thompson Sampling	Oct 2, 2020	Multi-Armed BanditsThompson Sampling	CodeCode Available	1
Carousel Personalization in Music Streaming Apps with Contextual Bandits	Sep 14, 2020	Multi-Armed Bandits	CodeCode Available	1
BanditPAM: Almost Linear Time k-Medoids Clustering via Multi-Armed Bandits	Jun 11, 2020	ClusteringMulti-Armed Bandits	CodeCode Available	1
Efficient Contextual Bandits with Continuous Actions	Jun 10, 2020	Multi-Armed Bandits	CodeCode Available	1
Unified Models of Human Behavioral Agents in Bandits, Contextual Bandits and RL	May 10, 2020	Decision MakingLifelong learning	CodeCode Available	1
Hierarchical Adaptive Contextual Bandits for Resource Constraint based Recommendation	Apr 2, 2020	Multi-Armed Bandits	CodeCode Available	1
A Modern Introduction to Online Learning	Dec 31, 2019	AllMulti-Armed Bandits	CodeCode Available	1
Multiplayer Multi-armed Bandits for Optimal Assignment in Heterogeneous Networks	Jan 12, 2019	Multi-Armed Bandits	CodeCode Available	1
Deep Reinforcement Learning based Recommendation with Explicit User-Item Interactions Modeling	Oct 29, 2018	Collaborative FilteringDecision Making	CodeCode Available	1
Multi-Armed Bandits With Machine Learning-Generated Surrogate Rewards	Jun 20, 2025	Decision Making Under UncertaintyMulti-Armed Bandits	—Unverified	0
A General Framework for Off-Policy Learning with Partially-Observed Reward	Jun 17, 2025	Multi-Armed Bandits	—Unverified	0
Adaptive Data Augmentation for Thompson Sampling	Jun 17, 2025	Data AugmentationMulti-Armed Bandits	—Unverified	0
Adaptive Action Duration with Contextual Bandits for Deep Reinforcement Learning in Dynamic Environments	Jun 17, 2025	Atari GamesBoard Games	CodeCode Available	0
Stochastic Multi-Objective Multi-Armed Bandits: Regret Definition and Algorithm	Jun 16, 2025	Multi-Armed Bandits	—Unverified	0
Collaborative Min-Max Regret in Grouped Multi-Armed Bandits	Jun 12, 2025	Multi-Armed Bandits	—Unverified	0
Meet Me at the Arm: The Cooperative Multi-Armed Bandits Problem with Shareable Arms	Jun 11, 2025	Capacity EstimationMulti-Armed Bandits	—Unverified	0
Improved Regret Bounds for Linear Bandits with Heavy-Tailed Rewards	Jun 5, 2025	Experimental DesignMulti-Armed Bandits	—Unverified	0
From Theory to Practice with RAVEN-UCB: Addressing Non-Stationarity in Multi-Armed Bandits through Variance Adaptation	Jun 3, 2025	Multi-Armed Bandits	CodeCode Available	0
VirnyFlow: A Design Space for Responsible Model Development	Jun 2, 2025	AutoMLBayesian Optimization	CodeCode Available	0
Quick-Draw Bandits: Quickly Optimizing in Nonstationary Environments with Extremely Many Arms	May 30, 2025	Multi-Armed Bandits	—Unverified	0
COBRA: Contextual Bandit Algorithm for Ensuring Truthful Strategic Agents	May 29, 2025	Multi-Armed Bandits	—Unverified	0
A Reinforcement-Learning-Enhanced LLM Framework for Automated A/B Testing in Personalized Marketing	May 27, 2025	MarketingMulti-Armed Bandits	—Unverified	0

Show:10 25 50

← PrevPage 1 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified