SOTAVerified|Agents Browse Leaderboard About

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 801–810 of 1262 papers

Title	Date	Tasks	Status
Finding All -Good Arms in Stochastic Bandits	Dec 1, 2020	AllMulti-Armed Bandits	—Unverified
A Tractable Online Learning Algorithm for the Multinomial Logit Contextual Bandit	Nov 28, 2020	Decision MakingMulti-Armed Bandits	—Unverified
Resonance: Replacing Software Constants with Context-Aware Models in Real-time Communication	Nov 23, 2020	FrictionMulti-Armed Bandits	—Unverified
Fully Gap-Dependent Bounds for Multinomial Logit Bandit	Nov 19, 2020	Multi-Armed Bandits	—Unverified
A New Bandit Setting Balancing Information from State Evolution and Corrupted Context	Nov 16, 2020	Decision MakingEfficient Exploration	CodeCode Available
Reward Biased Maximum Likelihood Estimation for Reinforcement Learning	Nov 16, 2020	Multi-Armed Banditsreinforcement-learning	—Unverified
Metric-Free Individual Fairness with Cooperative Contextual Bandits	Nov 13, 2020	Decision MakingFairness	—Unverified
Improving Offline Contextual Bandits with Distributional Robustness	Nov 13, 2020	counterfactualMulti-Armed Bandits	—Unverified
Active Reinforcement Learning: Observing Rewards at a Cost	Nov 13, 2020	Multi-Armed Banditsreinforcement-learning	—Unverified
Asymptotic Convergence of Thompson Sampling	Nov 8, 2020	Multi-Armed BanditsThompson Sampling	—Unverified

Show:10 25 50

← PrevPage 81 of 127Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified