SOTAVerified|Agents Browse Leaderboard About

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1021–1030 of 1262 papers

Title	Date	Tasks	Status
Privacy Amplification via Shuffling for Linear Contextual Bandits	Dec 11, 2021	Multi-Armed Bandits	—Unverified
Privacy-Preserving Communication-Efficient Federated Multi-Armed Bandits	Nov 2, 2021	Decision MakingMulti-Armed Bandits	—Unverified
Privacy-Preserving Multi-Party Contextual Bandits	Oct 11, 2019	Multi-Armed BanditsPrivacy Preserving	—Unverified
Problem Dependent Reinforcement Learning Bounds Which Can Identify Bandit Structure in MDPs	Nov 3, 2019	Multi-Armed Banditsreinforcement-learning	—Unverified
Productization Challenges of Contextual Multi-Armed Bandits	Jul 10, 2019	Multi-Armed Bandits	—Unverified
Proportional Response: Contextual Bandits for Simple and Cumulative Regret Minimization	Jul 5, 2023	Multi-Armed Bandits	—Unverified
Provable Benefits of Policy Learning from Human Preferences in Contextual Bandit Problems	Jul 24, 2023	Decision MakingMulti-Armed Bandits	—Unverified
Provable General Function Class Representation Learning in Multitask Bandits and MDPs	May 31, 2022	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Provably and Practically Efficient Neural Contextual Bandits	May 31, 2022	Multi-Armed Bandits	—Unverified
Provably Efficient High-Dimensional Bandit Learning with Batched Feedbacks	Nov 22, 2023	Multi-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 103 of 127Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified