SOTAVerified|Agents Browse Leaderboard About

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 81–90 of 1262 papers

Title	Date	Tasks	Status	Score
(Almost) Free Incentivized Exploration from Decentralized Learning Agents	Oct 27, 2021	Multi-Armed Bandits	CodeCode Available	5
Confidence Intervals for Policy Evaluation in Adaptive Experiments	Nov 7, 2019	Experimental DesignMulti-Armed Bandits	CodeCode Available	5
Adaptive Estimator Selection for Off-Policy Evaluation	Feb 18, 2020	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	5
Cascading Bandits for Large-Scale Recommendation Problems	Mar 17, 2016	Multi-Armed BanditsRecommendation Systems	CodeCode Available	5
Adaptive Experimentation with Delayed Binary Feedback	Feb 2, 2022	Multi-Armed Banditsvalid	CodeCode Available	5
Contextual bandits with entropy-based human feedback	Feb 12, 2025	Multi-Armed Bandits	CodeCode Available	5
A Convex Framework for Confounding Robust Inference	Sep 21, 2023	Model SelectionMulti-Armed Bandits	CodeCode Available	5
Corralling a Band of Bandit Algorithms	Dec 19, 2016	Multi-Armed Bandits	CodeCode Available	5
Scalable Exploration via Ensemble++	Jul 18, 2024	Computational EfficiencyDecision Making	CodeCode Available	5
Causal Contextual Bandits with Adaptive Context	May 28, 2024	Multi-Armed Bandits	CodeCode Available	5

Show:10 25 50

← PrevPage 9 of 127Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified