SOTAVerified|Agents Browse Leaderboard About Blog

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1241–1250 of 1262 papers

Title	Date	Tasks	Status
Addressing the Long-term Impact of ML Decisions via Policy Regret	Jun 2, 2021	Multi-Armed Bandits	CodeCode Available
Test-Time Scaling of Diffusion Models via Noise Trajectory Search	May 24, 2025	DenoisingImage Generation	CodeCode Available
Regulating Greed Over Time in Multi-Armed Bandits	May 21, 2015	Multi-Armed BanditsTime Series Analysis	CodeCode Available
Safe Exploration for Optimizing Contextual Bandits	Feb 2, 2020	counterfactualInformation Retrieval	CodeCode Available
Simulated Contextual Bandits for Personalization Tasks from Recommendation Datasets	Oct 12, 2022	BenchmarkingMulti-Armed Bandits	CodeCode Available
Reinforcement Learning for Physical Layer Communications	Jun 22, 2021	Deep Reinforcement LearningMulti-Armed Bandits	CodeCode Available
Simultaneously Achieving Group Exposure Fairness and Within-Group Meritocracy in Stochastic Bandits	Feb 8, 2024	AttributeExposure Fairness	CodeCode Available
Mostly Exploration-Free Algorithms for Contextual Bandits	Apr 28, 2017	DiversityMulti-Armed Bandits	CodeCode Available
Scalable Exploration via Ensemble++	Jul 18, 2024	Computational EfficiencyDecision Making	CodeCode Available
The Assistive Multi-Armed Bandit	Jan 24, 2019	Multi-Armed Bandits	CodeCode Available

Show:10 25 50

← PrevPage 125 of 127Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified