Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 1262 papers

Title	Date	Tasks	Status
Boundary Crossing Probabilities for General Exponential Families	May 24, 2017	Multi-Armed Bandits	—Unverified
Bounded Regret for Finitely Parameterized Multi-Armed Bandits	Mar 3, 2020	Multi-Armed Bandits	—Unverified
Breaking the (1/Δ_2) Barrier: Better Batched Best Arm Identification with Adaptive Grids	Jan 29, 2025	Multi-Armed Bandits	—Unverified
Breaking the T Barrier: Instance-Independent Logarithmic Regret in Stochastic Contextual Linear Bandits	May 19, 2022	Multi-Armed Banditsparameter estimation	—Unverified
Bridging Offline Reinforcement Learning and Imitation Learning: A Tale of Pessimism	Mar 22, 2021	Imitation LearningMulti-Armed Bandits	—Unverified
Budget-Constrained Multi-Armed Bandits with Multiple Plays	Nov 16, 2017	Multi-Armed Bandits	—Unverified
Budgeted Combinatorial Multi-Armed Bandits	Feb 8, 2022	Multi-Armed Bandits	—Unverified
An Optimal Algorithm for Adversarial Bandits with Arbitrary Delays	Oct 14, 2019	Multi-Armed Bandits	—Unverified
Budgeted Recommendation with Delayed Feedback	May 19, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Building Bridges: Viewing Active Learning from the Multi-Armed Bandit Lens	Sep 26, 2013	Active LearningBinary Classification	—Unverified
Bypassing the Monster: A Faster and Simpler Optimal Algorithm for Contextual Bandits under Realizability	Mar 28, 2020	Multi-Armed Banditsregression	—Unverified
Bypassing the Simulator: Near-Optimal Adversarial Linear Contextual Bandits	Sep 2, 2023	Computational EfficiencyMulti-Armed Bandits	—Unverified
Byzantine-Resilient Decentralized Multi-Armed Bandits	Oct 11, 2023	Multi-Armed BanditsRecommendation Systems	—Unverified
A Gang of Bandits	Jun 4, 2013	ClusteringMulti-Armed Bandits	—Unverified
An Optimistic Algorithm for Online Convex Optimization with Adversarial Constraints	Dec 11, 2024	Multi-Armed Bandits	—Unverified
Catoni Contextual Bandits are Robust to Heavy-tailed Rewards	Feb 4, 2025	Multi-Armed Bandits	—Unverified
Causal Bandits: Online Decision-Making in Endogenous Settings	Nov 16, 2022	Decision MakingMulti-Armed Bandits	—Unverified
A General Reduction for High-Probability Analysis with General Light-Tailed Distributions	Mar 5, 2024	Multi-Armed BanditsStochastic Optimization	—Unverified
Causal Contextual Bandits with Targeted Interventions	Sep 29, 2021	Multi-Armed Bandits	—Unverified
Causal Feature Selection Method for Contextual Multi-Armed Bandits in Recommender System	Sep 20, 2024	feature selectionMulti-Armed Bandits	—Unverified
AdaLinUCB: Opportunistic Learning for Contextual Bandits	Feb 20, 2019	Multi-Armed Bandits	—Unverified
Contextual Bandits in Payment Processing: Non-uniform Exploration and Supervised Learning at Adyen	Nov 30, 2024	Multi-Armed Banditsregression	—Unverified
A framework for optimizing COVID-19 testing policy using a Multi Armed Bandit approach	Jul 28, 2020	Decision MakingMulti-Armed Bandits	—Unverified
Classical Bandit Algorithms for Entanglement Detection in Parameterized Qubit States	Jun 28, 2024	Multi-Armed Bandits	—Unverified
Clustered Linear Contextual Bandits with Knapsacks	Aug 21, 2023	EconometricsMulti-Armed Bandits	—Unverified
COBRA: Contextual Bandit Algorithm for Ensuring Truthful Strategic Agents	May 29, 2025	Multi-Armed Bandits	—Unverified
Parallel Best Arm Identification in Heterogeneous Environments	Jul 16, 2022	Multi-Armed Bandits	—Unverified
Collaborative Learning with Limited Interaction: Tight Bounds for Distributed Exploration in Multi-Armed Bandits	Apr 5, 2019	Multi-Armed Bandits	—Unverified
Collaborative Min-Max Regret in Grouped Multi-Armed Bandits	Jun 12, 2025	Multi-Armed Bandits	—Unverified
Collaborative Multi-Agent Heterogeneous Multi-Armed Bandits	May 30, 2023	Multi-Armed Bandits	—Unverified
Communication-Efficient Collaborative Regret Minimization in Multi-Armed Bandits	Jan 26, 2023	Multi-agent Reinforcement LearningMulti-Armed Bandits	—Unverified
Adversarial Attacks on Adversarial Bandits	Jan 30, 2023	Multi-Armed BanditsRecommendation Systems	—Unverified
Top-k Combinatorial Bandits with Full-Bandit Feedback	May 28, 2019	Multi-Armed Bandits	—Unverified
Bayesian Analysis of Combinatorial Gaussian Process Bandits	Dec 20, 2023	Bayesian InferenceInformativeness	—Unverified
Combinatorial Multi-armed Bandits: Arm Selection via Group Testing	Oct 14, 2024	Multi-Armed Banditsparameter estimation	—Unverified
A Regret bound for Non-stationary Multi-Armed Bandits with Fairness Constraints	Dec 24, 2020	Decision MakingFairness	—Unverified
Combinatorial Multi-armed Bandits for Real-Time Strategy Games	Oct 13, 2017	Multi-Armed BanditsReal-Time Strategy Games	—Unverified
Combinatorial Multi-Armed Bandits with Filtered Feedback	May 26, 2017	Multi-Armed Bandits	—Unverified
Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond	Jun 3, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Combinatorial Network Optimization with Unknown Variables: Multi-Armed Bandits with Linear Rewards	Nov 22, 2010	Combinatorial OptimizationMulti-Armed Bandits	—Unverified
Combinatorial Pure Exploration of Multi-Armed Bandits	Dec 1, 2014	Multi-Armed Bandits	—Unverified
Combinatorial Pure Exploration with Full-bandit Feedback and Beyond: Solving Combinatorial Optimization under Uncertainty with Limited Observation	Dec 31, 2020	Combinatorial OptimizationMulti-Armed Bandits	—Unverified
Combinatorial Semi-Bandits with Knapsacks	May 23, 2017	Multi-Armed Bandits	—Unverified
Combining Difficulty Ranking with Multi-Armed Bandits to Sequence Educational Content	Apr 14, 2018	Multi-Armed Bandits	—Unverified
A Survey of Learning in Multiagent Environments: Dealing with Non-Stationarity	Jul 28, 2017	Multi-Armed BanditsReinforcement Learning	—Unverified
Combining Online Learning and Offline Learning for Contextual Bandits with Deficient Support	Jul 24, 2021	Multi-Armed Bandits	—Unverified
Adversarial Bandits with Knapsacks	Nov 28, 2018	Multi-Armed BanditsScheduling	—Unverified
Communication Efficient Distributed Learning for Kernelized Contextual Bandits	Jun 10, 2022	Multi-Armed Bandits	—Unverified
Comparative Performance of Collaborative Bandit Algorithms: Effect of Sparsity and Exploration Intensity	Oct 15, 2024	ClusteringMulti-Armed Bandits	—Unverified
Balanced Linear Contextual Bandits	Dec 15, 2018	Causal InferenceMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 5 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified