Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–275 of 1262 papers

Title	Date	Tasks	Status
Communication Efficient Distributed Learning for Kernelized Contextual Bandits	Jun 10, 2022	Multi-Armed Bandits	—Unverified
Adversarial Bandits with Knapsacks	Nov 28, 2018	Multi-Armed BanditsScheduling	—Unverified
Computationally Efficient Horizon-Free Reinforcement Learning for Linear Mixture MDPs	May 23, 2022	Multi-Armed Banditsreinforcement-learning	—Unverified
Concurrent Decentralized Channel Allocation and Access Point Selection using Multi-Armed Bandits in multi BSS WLANs	Jun 5, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Adapting to Delays and Data in Adversarial Multi-Armed Bandits	Oct 12, 2020	Multi-Armed Bandits	—Unverified
Combining Online Learning and Offline Learning for Contextual Bandits with Deficient Support	Jul 24, 2021	Multi-Armed Bandits	—Unverified
A Survey of Learning in Multiagent Environments: Dealing with Non-Stationarity	Jul 28, 2017	Multi-Armed BanditsReinforcement Learning	—Unverified
Combining Difficulty Ranking with Multi-Armed Bandits to Sequence Educational Content	Apr 14, 2018	Multi-Armed Bandits	—Unverified
Combinatorial Semi-Bandits with Knapsacks	May 23, 2017	Multi-Armed Bandits	—Unverified
A Sleeping, Recovering Bandit Algorithm for Optimizing Recurring Notifications	Aug 23, 2020	Multi-Armed Bandits	—Unverified
Adversarial Attacks on Linear Contextual Bandits	Feb 10, 2020	Multi-Armed BanditsRecommendation Systems	—Unverified
Combinatorial Pure Exploration with Full-bandit Feedback and Beyond: Solving Combinatorial Optimization under Uncertainty with Limited Observation	Dec 31, 2020	Combinatorial OptimizationMulti-Armed Bandits	—Unverified
Combinatorial Pure Exploration of Multi-Armed Bandits	Dec 1, 2014	Multi-Armed Bandits	—Unverified
A Simple and Optimal Policy Design with Safety against Heavy-Tailed Risk for Stochastic Bandits	Jun 7, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Combinatorial Network Optimization with Unknown Variables: Multi-Armed Bandits with Linear Rewards	Nov 22, 2010	Combinatorial OptimizationMulti-Armed Bandits	—Unverified
Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond	Jun 3, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
A Risk-Averse Framework for Non-Stationary Stochastic Multi-Armed Bandits	Oct 24, 2023	Change Point DetectionMulti-Armed Bandits	—Unverified
Adversarial Attacks on Cooperative Multi-agent Bandits	Nov 3, 2023	Multi-Armed Bandits	—Unverified
A Classification View on Meta Learning Bandits	Apr 6, 2025	ClassificationMeta-Learning	—Unverified
Combinatorial Multi-Armed Bandits with Filtered Feedback	May 26, 2017	Multi-Armed Bandits	—Unverified
Combinatorial Multi-armed Bandits for Real-Time Strategy Games	Oct 13, 2017	Multi-Armed BanditsReal-Time Strategy Games	—Unverified
A Reinforcement-Learning-Enhanced LLM Framework for Automated A/B Testing in Personalized Marketing	May 27, 2025	MarketingMulti-Armed Bandits	—Unverified
Combinatorial Multi-armed Bandits: Arm Selection via Group Testing	Oct 14, 2024	Multi-Armed Banditsparameter estimation	—Unverified
A Regret bound for Non-stationary Multi-Armed Bandits with Fairness Constraints	Dec 24, 2020	Decision MakingFairness	—Unverified
Bayesian Analysis of Combinatorial Gaussian Process Bandits	Dec 20, 2023	Bayesian InferenceInformativeness	—Unverified

Show:10 25 50

← PrevPage 11 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified