SOTAVerified|Agents Browse Leaderboard About

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 961–970 of 1262 papers

Title	Date	Tasks	Status
Thompson Sampling for Contextual Bandit Problems with Auxiliary Safety Constraints	Nov 2, 2019	Bayesian OptimizationDecision Making	—Unverified
Thompson Sampling via Local Uncertainty	Oct 30, 2019	Decision MakingMulti-Armed Bandits	CodeCode Available
Trend-responsive User Segmentation Enabling Traceable Publishing Insights. A Case Study of a Real-world Large-scale News Recommendation System	Oct 28, 2019	Diversityglobal-optimization	—Unverified
BanditRank: Learning to Rank Using Contextual Bandits	Oct 23, 2019	Information RetrievalLearning-To-Rank	—Unverified
Smoothness-Adaptive Contextual Bandits	Oct 22, 2019	Decision MakingMulti-Armed Bandits	CodeCode Available
Multi-User MABs with User Dependent Rewards for Uncoordinated Spectrum Access	Oct 21, 2019	Multi-Armed Bandits	—Unverified
Decentralized Heterogeneous Multi-Player Multi-Armed Bandits with Non-Zero Rewards on Collisions	Oct 21, 2019	Multi-Armed Bandits	—Unverified
Adaptive Exploration in Linear Contextual Bandit	Oct 15, 2019	Decision MakingMulti-Armed Bandits	—Unverified
Model-free Reinforcement Learning in Infinite-horizon Average-reward Markov Decision Processes	Oct 15, 2019	Multi-Armed Banditsreinforcement-learning	CodeCode Available
An Optimal Algorithm for Adversarial Bandits with Arbitrary Delays	Oct 14, 2019	Multi-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 97 of 127Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified