SOTAVerified|Agents Browse Leaderboard About

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 541–550 of 1262 papers

Title	Date	Tasks	Status
Provable General Function Class Representation Learning in Multitask Bandits and MDPs	May 31, 2022	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Online Meta-Learning in Adversarial Multi-Armed Bandits	May 31, 2022	Meta-LearningMulti-Armed Bandits	—Unverified
Optimistic Whittle Index Policy: Online Learning for Restless Bandits	May 30, 2022	Multi-Armed Bandits	CodeCode Available
Quantum Multi-Armed Bandits and Stochastic Linear Bandits Enjoy Logarithmic Regrets	May 30, 2022	Multi-Armed Banditsreinforcement-learning	—Unverified
Federated Neural Bandits	May 28, 2022	Multi-Armed Bandits	CodeCode Available
Fairness and Welfare Quantification for Regret in Multi-Armed Bandits	May 27, 2022	FairnessMulti-Armed Bandits	—Unverified
Meta-Learning Adversarial Bandits	May 27, 2022	Meta-LearningMulti-Armed Bandits	—Unverified
Lifting the Information Ratio: An Information-Theoretic Analysis of Thompson Sampling for Contextual Bandits	May 27, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Exploration, Exploitation, and Engagement in Multi-Armed Bandits with Abandonment	May 26, 2022	Multi-Armed BanditsQ-Learning	—Unverified
Contextual Pandora's Box	May 26, 2022	Multi-Armed BanditsStochastic Optimization	—Unverified

Show:10 25 50

← PrevPage 55 of 127Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified