Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 776–800 of 1262 papers

Title	Date	Tasks	Status
Lifelong Learning in Multi-Armed Bandits	Dec 28, 2020	Lifelong learningMulti-Armed Bandits	—Unverified
Lifting the Information Ratio: An Information-Theoretic Analysis of Thompson Sampling for Contextual Bandits	May 27, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
lil' UCB : An Optimal Exploration Algorithm for Multi-Armed Bandits	Dec 27, 2013	Multi-Armed Bandits	—Unverified
Linear Bandits with Limited Adaptivity and Learning Distributional Optimal Design	Jul 4, 2020	Active LearningMulti-Armed Bandits	—Unverified
Linear Contextual Bandits with Adversarial Corruptions	Oct 25, 2021	Multi-Armed Bandits	—Unverified
Linear Contextual Bandits with Interference	Sep 24, 2024	Causal InferenceDecision Making	—Unverified
Linear Contextual Bandits with Knapsacks	Jul 24, 2015	Multi-Armed Bandits	—Unverified
Lipschitz Bandits: Regret Lower Bounds and Optimal Algorithms	May 19, 2014	Multi-Armed Bandits	—Unverified
LLMs-augmented Contextual Bandit	Nov 3, 2023	Multi-Armed Banditsreinforcement-learning	—Unverified
Local Clustering in Contextual Multi-Armed Bandits	Feb 26, 2021	ClusteringMulti-Armed Bandits	—Unverified
Local Differential Privacy for Sequential Decision Making in a Changing Environment	Jan 2, 2023	Decision MakingMulti-Armed Bandits	—Unverified
(Locally) Differentially Private Combinatorial Semi-Bandits	Jun 1, 2020	Multi-Armed BanditsPrivacy Preserving	—Unverified
Make the Minority Great Again: First-Order Regret Bound for Contextual Bandits	Feb 9, 2018	Multi-Armed Bandits	—Unverified
Making Contextual Decisions with Low Technical Debt	Jun 13, 2016	Multi-Armed Bandits	—Unverified
Mathematics of statistical sequential decision-making: concentration, risk-awareness and modelling in stochastic bandits, with applications to bariatric surgery	May 3, 2024	Decision MakingInterpretable Machine Learning	—Unverified
Maximum entropy exploration in contextual bandits with neural networks and energy based models	Oct 12, 2022	Multi-Armed Bandits	—Unverified
MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization	Dec 16, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Max-Utility Based Arm Selection Strategy For Sequential Query Recommendations	Aug 31, 2021	Multi-Armed Bandits	—Unverified
MBExplainer: Multilevel bandit-based explanations for downstream models with augmented graph embeddings	Nov 1, 2024	Graph ClassificationMulti-Armed Bandits	—Unverified
Achieving PAC Guarantees in Mechanism Design through Multi-Armed Bandits	Nov 30, 2024	Multi-Armed Bandits	—Unverified
Meet Me at the Arm: The Cooperative Multi-Armed Bandits Problem with Shareable Arms	Jun 11, 2025	Capacity EstimationMulti-Armed Bandits	—Unverified
Metadata-based Multi-Task Bandits with Bayesian Hierarchical Models	Aug 13, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
Meta-learners' learning dynamics are unlike learners'	May 3, 2019	Meta-LearningMulti-Armed Bandits	—Unverified
Meta-Learning Adversarial Bandit Algorithms	Jul 5, 2023	Meta-LearningMulti-Armed Bandits	—Unverified
Meta-Learning Adversarial Bandits	May 27, 2022	Meta-LearningMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 32 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified