SOTAVerified|Agents Browse Leaderboard About

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 551–575 of 1262 papers

Title	Date	Tasks	Status
Contextual Bandits for Unbounded Context Distributions	Aug 19, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Heterogeneous Multi-Player Multi-Armed Bandits Robust To Adversarial Attacks	Jan 21, 2025	Adversarial AttackAll	—Unverified
Contextual Bandits in a Survey Experiment on Charitable Giving: Within-Experiment Outcomes versus Policy Learning	Nov 22, 2022	Multi-Armed Bandits	—Unverified
The Choice of Noninformative Priors for Thompson Sampling in Multiparameter Bandit Models	Feb 28, 2023	Multi-Armed BanditsThompson Sampling	—Unverified
Contextual Bandits in Payment Processing: Non-uniform Exploration and Supervised Learning at Adyen	Nov 30, 2024	Multi-Armed Banditsregression	—Unverified
Hierarchical Optimistic Region Selection driven by Curiosity	Dec 1, 2012	Active LearningMulti-Armed Bandits	—Unverified
High-dimensional Linear Bandits with Knapsacks	Nov 2, 2023	Multi-Armed Bandits	—Unverified
High-dimensional Nonparametric Contextual Bandit Problem	May 20, 2025	Decision MakingMulti-Armed Bandits	—Unverified
High Probability Bound for Cross-Learning Contextual Bandits with Unknown Context Distributions	Oct 5, 2024	Multi-Armed Bandits	—Unverified
Encrypted Linear Contextual Bandit	Mar 17, 2021	Decision MakingMulti-Armed Bandits	—Unverified
Honor Among Bandits: No-Regret Learning for Online Fair Division	Jul 1, 2024	FairnessMulti-Armed Bandits	—Unverified
Horde of Bandits using Gaussian Markov Random Fields	Mar 7, 2017	ClusteringMulti-Armed Bandits	—Unverified
How Does Variance Shape the Regret in Contextual Bandits?	Oct 16, 2024	Multi-Armed Bandits	—Unverified
Human-AI Learning Performance in Multi-Armed Bandits	Dec 21, 2018	Decision MakingMulti-Armed Bandits	—Unverified
Contextual Bandits with Continuous Actions: Smoothing, Zooming, and Adapting	Feb 5, 2019	Multi-Armed Bandits	—Unverified
Survival of the strictest: Stable and unstable equilibria under regularized learning with partial information	Jan 12, 2021	Multi-Armed Bandits	—Unverified
A Closer Look at Small-loss Bounds for Bandits with Graph Feedback	Feb 2, 2020	Multi-Armed Bandits	—Unverified
Identifiable latent bandits: Combining observational data and exploration for personalized healthcare	Jul 23, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Balancing Act: Prioritization Strategies for LLM-Designed Restless Bandit Rewards	Aug 22, 2024	Language ModelingLanguage Modelling	—Unverified
Imitation-Regularized Offline Learning	Jan 15, 2019	counterfactualMulti-Armed Bandits	—Unverified
Improved Best-of-Both-Worlds Guarantees for Multi-Armed Bandits: FTRL with General Regularizers and Multiple Optimal Arms	Feb 27, 2023	Multi-Armed Bandits	—Unverified
From Dirichlet to Rubin: Optimistic Exploration in RL without Bonuses	May 16, 2022	Multi-Armed Bandits	—Unverified
Improved Algorithms for Adversarial Bandits with Unbounded Losses	Oct 3, 2023	Multi-Armed Bandits	—Unverified
Improved Algorithms for Misspecified Linear Markov Decision Processes	Sep 12, 2021	Multi-Armed Bandits	—Unverified
From Bandits to Experts: On the Value of Side-Observations	Dec 1, 2011	Multi-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 23 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified