Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 126–150 of 1262 papers

Title	Date	Tasks	Status	Score
Machine Teaching of Active Sequential Learners	Sep 8, 2018	Multi-Armed BanditsProbabilistic Programming	CodeCode Available	5
A New Bandit Setting Balancing Information from State Evolution and Corrupted Context	Nov 16, 2020	Decision MakingEfficient Exploration	CodeCode Available	5
Distributionally Robust Policy Evaluation under General Covariate Shift in Contextual Bandits	Jan 21, 2024	Multi-Armed Banditsregression	CodeCode Available	5
Dual-Mandate Patrols: Multi-Armed Bandits for Green Security	Sep 14, 2020	Multi-Armed Bandits	CodeCode Available	5
Contextual Bandits with Smooth Regret: Efficient Learning in Continuous Action Spaces	Jul 12, 2022	continuous-controlContinuous Control	CodeCode Available	5
Contextual bandits with entropy-based human feedback	Feb 12, 2025	Multi-Armed Bandits	CodeCode Available	5
Contextual Bandits with Stochastic Experts	Feb 23, 2018	Multi-Armed Bandits	CodeCode Available	5
Conditionally Risk-Averse Contextual Bandits	Oct 24, 2022	ManagementMulti-Armed Bandits	CodeCode Available	5
Adaptive Action Duration with Contextual Bandits for Deep Reinforcement Learning in Dynamic Environments	Jun 17, 2025	Atari GamesBoard Games	CodeCode Available	5
Confidence Intervals for Policy Evaluation in Adaptive Experiments	Nov 7, 2019	Experimental DesignMulti-Armed Bandits	CodeCode Available	5
Flooding with Absorption: An Efficient Protocol for Heterogeneous Bandits over Complex Networks	Mar 9, 2023	Decision MakingMulti-Armed Bandits	CodeCode Available	5
A Field Test of Bandit Algorithms for Recommendations: Understanding the Validity of Assumptions on Human Preferences in Multi-armed Bandits	Apr 16, 2023	Multi-Armed BanditsRecommendation Systems	CodeCode Available	5
Confident Off-Policy Evaluation and Selection through Self-Normalized Importance Weighting	Jun 18, 2020	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	5
Constrained regret minimization for multi-criterion multi-armed bandits	Jun 17, 2020	AttributeMulti-Armed Bandits	CodeCode Available	5
Balanced off-policy evaluation in general action spaces	Jun 9, 2019	Binary Classificationcounterfactual	CodeCode Available	5
Contextual Bandits with Large Action Spaces: Made Practical	Jul 12, 2022	Decision MakingMulti-Armed Bandits	CodeCode Available	5
Contextual Linear Bandits under Noisy Features: Towards Bayesian Oracles	Mar 3, 2017	Multi-Armed Bandits	CodeCode Available	5
Censored Semi-Bandits: A Framework for Resource Allocation with Censored Feedback	Sep 4, 2019	Multi-Armed Bandits	CodeCode Available	5
Correlated Multi-armed Bandits with a Latent Random Source	Aug 17, 2018	Multi-Armed Bandits	CodeCode Available	5
Cost-Efficient Online Decision Making: A Combinatorial Multi-Armed Bandit Approach	Aug 21, 2023	Decision MakingMulti-Armed Bandits	CodeCode Available	5
RoME: A Robust Mixed-Effects Bandit Algorithm for Optimizing Mobile Health Interventions	Dec 11, 2023	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	5
Causally Abstracted Multi-armed Bandits	Apr 26, 2024	Decision MakingMulti-Armed Bandits	CodeCode Available	5
Combinatorial Bandits under Strategic Manipulations	Feb 25, 2021	Multi-Armed BanditsRecommendation Systems	CodeCode Available	5
Cascading Bandits for Large-Scale Recommendation Problems	Mar 17, 2016	Multi-Armed BanditsRecommendation Systems	CodeCode Available	5
Causal Contextual Bandits with Adaptive Context	May 28, 2024	Multi-Armed Bandits	CodeCode Available	5

Show:10 25 50

← PrevPage 6 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified