Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 526–550 of 1262 papers

Title	Date	Tasks	Status
Data Poisoning Attacks in Contextual Bandits	Aug 17, 2018	Data PoisoningMulti-Armed Bandits	—Unverified
Data-Driven Upper Confidence Bounds with Near-Optimal Regret for Heavy-Tailed Bandits	Jun 9, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Data Dependent Regret Guarantees Against General Comparators for Full or Bandit Feedback	Mar 12, 2023	Multi-Armed Bandits	—Unverified
Data Acquisition for Improving Model Fairness using Reinforcement Learning	Dec 4, 2024	Data ValuationFairness	—Unverified
Batched Coarse Ranking in Multi-Armed Bandits	Dec 1, 2020	Multi-Armed Bandits	—Unverified
Almost Optimal Batch-Regret Tradeoff for Batch Linear Contextual Bandits	Oct 15, 2021	Multi-Armed Bandits	—Unverified
Query-Reward Tradeoffs in Multi-Armed Bandits	Oct 12, 2021	Multi-Armed Bandits	—Unverified
Customized Nonlinear Bandits for Online Response Selection in Neural Conversation Models	Nov 22, 2017	Multi-Armed BanditsResponse Generation	—Unverified
Batched Bandits with Crowd Externalities	Sep 29, 2021	Multi-Armed Bandits	—Unverified
Cost-Aware Optimal Pairwise Pure Exploration	Mar 10, 2025	Multi-Armed Bandits	—Unverified
Banker Online Mirror Descent: A Universal Approach for Delayed Online Bandit Learning	Jan 25, 2023	Multi-Armed Bandits	—Unverified
Adaptive Endpointing with Deep Contextual Multi-armed Bandits	Mar 23, 2023	Multi-Armed Bandits	—Unverified
Corruption-robust exploration in episodic reinforcement learning	Nov 20, 2019	Multi-Armed Banditsreinforcement-learning	—Unverified
Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear Contextual Bandits and Markov Decision Processes	Dec 12, 2022	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Banker Online Mirror Descent	Jun 16, 2021	Multi-Armed Bandits	—Unverified
Bandits with Temporal Stochastic Constraints	Nov 22, 2018	Multi-Armed Bandits	—Unverified
Almost Boltzmann Exploration	Jan 25, 2019	Multi-Armed BanditsReinforcement Learning	—Unverified
CorrAttack: Black-box Adversarial Attack with Structured Search	Oct 3, 2020	Adversarial AttackBayesian Optimization	—Unverified
Bandits with Partially Observable Confounded Data	Jun 11, 2020	Multi-Armed Bandits	—Unverified
Coordination without communication: optimal regret in two players multi-armed bandits	Feb 14, 2020	Multi-Armed BanditsVocal Bursts Valence Prediction	—Unverified
Coordinated Multi-Armed Bandits for Improved Spatial Reuse in Wi-Fi	Dec 4, 2024	Decision MakingFairness	—Unverified
Bandits with Knapsacks beyond the Worst Case	Dec 1, 2021	Multi-Armed Bandits	—Unverified
Algorithms with Logarithmic or Sublinear Regret for Constrained Contextual Bandits	Apr 27, 2015	Multi-Armed Bandits	—Unverified
Adaptive Discretization against an Adversary: Lipschitz bandits, Dynamic Pricing, and Auction Tuning	Jun 22, 2020	Multi-Armed Bandits	—Unverified
A Correction of Pseudo Log-Likelihood Method	Mar 26, 2024	Multi-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 22 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified