SOTAVerified|Agents Browse Leaderboard About

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 326–350 of 1262 papers

Title	Date	Tasks	Status
Corruption-robust exploration in episodic reinforcement learning	Nov 20, 2019	Multi-Armed Banditsreinforcement-learning	—Unverified
Contexts can be Cheap: Solving Stochastic Contextual Bandits with Linear Bandit Algorithms	Nov 8, 2022	Multi-Armed Bandits	—Unverified
Banker Online Mirror Descent: A Universal Approach for Delayed Online Bandit Learning	Jan 25, 2023	Multi-Armed Bandits	—Unverified
Customized Nonlinear Bandits for Online Response Selection in Neural Conversation Models	Nov 22, 2017	Multi-Armed BanditsResponse Generation	—Unverified
Query-Reward Tradeoffs in Multi-Armed Bandits	Oct 12, 2021	Multi-Armed Bandits	—Unverified
Data Acquisition for Improving Model Fairness using Reinforcement Learning	Dec 4, 2024	Data ValuationFairness	—Unverified
Data Dependent Regret Guarantees Against General Comparators for Full or Bandit Feedback	Mar 12, 2023	Multi-Armed Bandits	—Unverified
Data-Driven Upper Confidence Bounds with Near-Optimal Regret for Heavy-Tailed Bandits	Jun 9, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Data Poisoning Attacks in Contextual Bandits	Aug 17, 2018	Data PoisoningMulti-Armed Bandits	—Unverified
Data Poisoning Attacks on Stochastic Bandits	May 16, 2019	Data PoisoningMulti-Armed Bandits	—Unverified
DBA bandits: Self-driving index tuning under ad-hoc, analytical workloads with safety guarantees	Oct 19, 2020	AttributeDecision Making	—Unverified
Batched Nonparametric Bandits via k-Nearest Neighbor UCB	May 15, 2025	Decision MakingMarketing	—Unverified
Decentralized Cooperative Reinforcement Learning with Hierarchical Information Structure	Nov 1, 2021	Multi-agent Reinforcement LearningMulti-Armed Bandits	—Unverified
Context-Aware Bandits	Oct 12, 2015	ClusteringMulti-Armed Bandits	—Unverified
Decentralized Exploration in Multi-Armed Bandits -- Extended version	Nov 19, 2018	Multi-Armed Bandits	—Unverified
Decentralized Upper Confidence Bound Algorithms for Homogeneous Multi-Agent Multi-Armed Bandits	Nov 22, 2021	Multi-Armed Bandits	—Unverified
Decentralized Multi-player Multi-armed Bandits with No Collision Information	Feb 29, 2020	Multi-Armed Bandits	—Unverified
Decentralized Smart Charging of Large-Scale EVs using Adaptive Multi-Agent Multi-Armed Bandits	Jul 20, 2023	FairnessMulti-Armed Bandits	—Unverified
Decision Automation for Electric Power Network Recovery	Oct 1, 2019	Decision MakingMulti-Armed Bandits	—Unverified
Scalable Decision-Focused Learning in Restless Multi-Armed Bandits with Application to Maternal and Child Health	Feb 2, 2022	Multi-Armed BanditsScheduling	—Unverified
Decision Making in Changing Environments: Robustness, Query-Based Learning, and Differential Privacy	Jan 24, 2025	Decision MakingMulti-Armed Bandits	—Unverified
Asymptotic Performance of Thompson Sampling in the Batched Multi-Armed Bandits	Oct 1, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
Batch Ensemble for Variance Dependent Regret in Stochastic Bandits	Sep 13, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Deep Contextual Bandits for Fast Neighbor-Aided Initial Access in mmWave Cell-Free Networks	Mar 17, 2021	Multi-Armed Bandits	—Unverified
Asymptotic Instance-Optimal Algorithms for Interactive Decision Making	Jun 6, 2022	Decision MakingMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 14 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified