SOTAVerified|Agents Browse Leaderboard About

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–525 of 1262 papers

Title	Date	Tasks	Status
Finite-Horizon Single-Pull Restless Bandits: An Efficient Index Policy For Scarce Resource Allocation	Jan 10, 2025	Multi-Armed Bandits	—Unverified
Competing Bandits in Matching Markets	Jun 12, 2019	Multi-Armed Bandits	—Unverified
Finite-Time Analysis of Kernelised Contextual Bandits	Sep 26, 2013	Multi-Armed Bandits	—Unverified
Finite-Time Analysis of Whittle Index based Q-Learning for Restless Multi-Armed Bandits with Neural Network Function Approximation	Oct 3, 2023	Multi-Armed BanditsQ-Learning	—Unverified
Conformal Off-Policy Prediction in Contextual Bandits	Jun 9, 2022	Conformal PredictionMulti-Armed Bandits	—Unverified
First- and Second-Order Bounds for Adversarial Linear Contextual Bandits	May 1, 2023	Multi-Armed Bandits	—Unverified
Fixed-Budget Best-Arm Identification in Structured Bandits	Jun 9, 2021	Multi-Armed Bandits	—Unverified
FLASH: Federated Learning Across Simultaneous Heterogeneities	Feb 13, 2024	Federated LearningMulti-Armed Bandits	—Unverified
Flexible and Efficient Contextual Bandits with Heterogeneous Treatment Effect Oracles	Mar 30, 2022	Decision MakingHeterogeneous Treatment Effect Estimation	—Unverified
Follow-ups Also Matter: Improving Contextual Bandits via Post-serving Contexts	Sep 25, 2023	LEMMAMulti-Armed Bandits	—Unverified
α-Fair Contextual Bandits	Oct 22, 2023	Multi-Armed BanditsRecommendation Systems	—Unverified
Generalized Translation and Scale Invariant Online Algorithm for Adversarial Multi-Armed Bandits	Sep 19, 2021	Multi-Armed BanditsTranslation	—Unverified
Full Gradient Deep Reinforcement Learning for Average-Reward Criterion	Apr 7, 2023	Deep Reinforcement LearningMulti-Armed Bandits	—Unverified
Adapting to Misspecification in Contextual Bandits with Offline Regression Oracles	Feb 26, 2021	Multi-Armed Banditsregression	—Unverified
Generalized Policy Elimination: an efficient algorithm for Nonparametric Contextual Bandits	Mar 5, 2020	Multi-Armed Bandits	—Unverified
The Choice of Noninformative Priors for Thompson Sampling in Multiparameter Bandit Models	Feb 28, 2023	Multi-Armed BanditsThompson Sampling	—Unverified
Survival of the strictest: Stable and unstable equilibria under regularized learning with partial information	Jan 12, 2021	Multi-Armed Bandits	—Unverified
A Closer Look at Small-loss Bounds for Bandits with Graph Feedback	Feb 2, 2020	Multi-Armed Bandits	—Unverified
Fully Gap-Dependent Bounds for Multinomial Logit Bandit	Nov 19, 2020	Multi-Armed Bandits	—Unverified
Fundamental Limits of Online and Distributed Algorithms for Statistical Learning and Estimation	Nov 14, 2013	Multi-Armed BanditsStochastic Optimization	—Unverified
Garbage In, Reward Out: Bootstrapping Exploration in Multi-Armed Bandits	Nov 13, 2018	Multi-Armed Bandits	—Unverified
Conservative Contextual Bandits: Beyond Linear Representations	Dec 9, 2024	Multi-Armed BanditsSequential Decision Making	—Unverified
Gaussian Process bandits with adaptive discretization	Dec 5, 2017	Multi-Armed Bandits	—Unverified
Generalized Risk-Aversion in Stochastic Multi-Armed Bandits	May 5, 2014	Multi-Armed Bandits	—Unverified
From Dirichlet to Rubin: Optimistic Exploration in RL without Bonuses	May 16, 2022	Multi-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 21 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified