SOTAVerified|Agents Browse Leaderboard About

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 531–540 of 1262 papers

Title	Date	Tasks	Status
Raising Student Completion Rates with Adaptive Curriculum and Contextual Bandits	Jul 28, 2022	Model-based Reinforcement LearningMulti-Armed Bandits	—Unverified
Towards Soft Fairness in Restless Multi-Armed Bandits	Jul 27, 2022	FairnessMulti-Armed Bandits	—Unverified
SPRT-based Efficient Best Arm Identification in Stochastic Bandits	Jul 22, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Online Learning with Off-Policy Feedback	Jul 18, 2022	Decision MakingMulti-Armed Bandits	—Unverified
Parallel Best Arm Identification in Heterogeneous Environments	Jul 16, 2022	Multi-Armed Bandits	—Unverified
Contextual Bandits with Smooth Regret: Efficient Learning in Continuous Action Spaces	Jul 12, 2022	continuous-controlContinuous Control	CodeCode Available
Contextual Bandits with Large Action Spaces: Made Practical	Jul 12, 2022	Decision MakingMulti-Armed Bandits	CodeCode Available
Online SuBmodular + SuPermodular (BP) Maximization with Bandit Feedback	Jul 7, 2022	Computational EfficiencyMovie Recommendation	CodeCode Available
Model Selection in Reinforcement Learning with General Function Approximations	Jul 6, 2022	Model SelectionMulti-Armed Bandits	—Unverified
Instance-optimal PAC Algorithms for Contextual Bandits	Jul 5, 2022	Multi-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 54 of 127Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified