SOTAVerified|Agents Browse Leaderboard About

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–675 of 1262 papers

Title	Date	Tasks	Status
Fighting Contextual Bandits with Stochastic Smoothing	Oct 11, 2018	Multi-Armed Bandits	—Unverified
Finding All -Good Arms in Stochastic Bandits	Dec 1, 2020	AllMulti-Armed Bandits	—Unverified
Finding the bandit in a graph: Sequential search-and-stop	Jun 6, 2018	Multi-Armed Bandits	—Unverified
Fine-Grained Gap-Dependent Bounds for Tabular MDPs via Adaptive Multi-Step Bootstrap	Feb 9, 2021	Multi-Armed Bandits	—Unverified
Finite-Horizon Single-Pull Restless Bandits: An Efficient Index Policy For Scarce Resource Allocation	Jan 10, 2025	Multi-Armed Bandits	—Unverified
Finite-Time Analysis of Kernelised Contextual Bandits	Sep 26, 2013	Multi-Armed Bandits	—Unverified
Finite-Time Analysis of Whittle Index based Q-Learning for Restless Multi-Armed Bandits with Neural Network Function Approximation	Oct 3, 2023	Multi-Armed BanditsQ-Learning	—Unverified
Finite-Time Regret of Thompson Sampling Algorithms for Exponential Family Multi-Armed Bandits	Jun 7, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
First- and Second-Order Bounds for Adversarial Linear Contextual Bandits	May 1, 2023	Multi-Armed Bandits	—Unverified
Fixed-Budget Best-Arm Identification in Structured Bandits	Jun 9, 2021	Multi-Armed Bandits	—Unverified
FLASH: Federated Learning Across Simultaneous Heterogeneities	Feb 13, 2024	Federated LearningMulti-Armed Bandits	—Unverified
Flexible and Efficient Contextual Bandits with Heterogeneous Treatment Effect Oracles	Mar 30, 2022	Decision MakingHeterogeneous Treatment Effect Estimation	—Unverified
Follow-ups Also Matter: Improving Contextual Bandits via Post-serving Contexts	Sep 25, 2023	LEMMAMulti-Armed Bandits	—Unverified
Foundations of Reinforcement Learning and Interactive Decision Making	Dec 27, 2023	Decision MakingMulti-Armed Bandits	—Unverified
From Bandits to Experts: A Tale of Domination and Independence	Jul 17, 2013	Multi-Armed Bandits	—Unverified
From Bandits to Experts: On the Value of Side-Observations	Dec 1, 2011	Multi-Armed Bandits	—Unverified
From Dirichlet to Rubin: Optimistic Exploration in RL without Bonuses	May 16, 2022	Multi-Armed Bandits	—Unverified
Survival of the strictest: Stable and unstable equilibria under regularized learning with partial information	Jan 12, 2021	Multi-Armed Bandits	—Unverified
Full Gradient Deep Reinforcement Learning for Average-Reward Criterion	Apr 7, 2023	Deep Reinforcement LearningMulti-Armed Bandits	—Unverified
Fully Gap-Dependent Bounds for Multinomial Logit Bandit	Nov 19, 2020	Multi-Armed Bandits	—Unverified
Fundamental Limits of Online and Distributed Algorithms for Statistical Learning and Estimation	Nov 14, 2013	Multi-Armed BanditsStochastic Optimization	—Unverified
Garbage In, Reward Out: Bootstrapping Exploration in Multi-Armed Bandits	Nov 13, 2018	Multi-Armed Bandits	—Unverified
Gaussian Process bandits with adaptive discretization	Dec 5, 2017	Multi-Armed Bandits	—Unverified
Generalized Policy Elimination: an efficient algorithm for Nonparametric Contextual Bandits	Mar 5, 2020	Multi-Armed Bandits	—Unverified
Generalized Risk-Aversion in Stochastic Multi-Armed Bandits	May 5, 2014	Multi-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 27 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified