SOTAVerified|Agents Browse Leaderboard About

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 961–970 of 1262 papers

Title	Date	Tasks	Status
Thompson Sampling Algorithms for Cascading Bandits	Oct 2, 2018	Efficient ExplorationMulti-Armed Bandits	—Unverified
Thompson Sampling for Contextual Bandit Problems with Auxiliary Safety Constraints	Nov 2, 2019	Bayesian OptimizationDecision Making	—Unverified
Thompson sampling for improved exploration in GFlowNets	Jun 30, 2023	Active LearningDecision Making	—Unverified
Thompson Sampling for Unsupervised Sequential Selection	Sep 16, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Thompson sampling for zero-inflated count outcomes with an application to the Drink Less mobile health study	Nov 24, 2023	Decision MakingMulti-Armed Bandits	—Unverified
Thompson Sampling in Partially Observable Contextual Bandits	Feb 15, 2024	Decision MakingDecision Making Under Uncertainty	—Unverified
Thompson Sampling Regret Bounds for Contextual Bandits with sub-Gaussian rewards	Apr 26, 2023	Multi-Armed BanditsThompson Sampling	—Unverified
Thresholding Data Shapley for Data Cleansing Using Multi-Armed Bandits	Feb 13, 2024	Multi-Armed Bandits	—Unverified
Tight Gap-Dependent Memory-Regret Trade-Off for Single-Pass Streaming Stochastic Multi-Armed Bandits	Mar 4, 2025	Multi-Armed Bandits	—Unverified
Tight Lower Bounds for Combinatorial Multi-Armed Bandits	Feb 13, 2020	Decision MakingMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 97 of 127Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified