SOTAVerified|Agents Browse Leaderboard About

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–510 of 1262 papers

Title	Date	Tasks	Status
Exposure-Aware Recommendation using Contextual Bandits	Sep 4, 2022	Multi-Armed BanditsRecommendation Systems	—Unverified
Variational Inference for Model-Free and Model-Based Reinforcement Learning	Sep 4, 2022	Bayesian InferenceBayesian Optimization	—Unverified
Dynamic Global Sensitivity for Differentially Private Contextual Bandits	Aug 30, 2022	Interactive RecommendationMulti-Armed Bandits	—Unverified
A Provably Efficient Model-Free Posterior Sampling Method for Episodic Reinforcement Learning	Aug 23, 2022	Multi-Armed Banditsreinforcement-learning	—Unverified
Understanding the stochastic dynamics of sequential decision-making processes: A path-integral analysis of multi-armed bandits	Aug 11, 2022	Decision MakingDecision Making Under Uncertainty	—Unverified
Increasing Students' Engagement to Reminder Emails Through Multi-Armed Bandits	Aug 10, 2022	ManagementMulti-Armed Bandits	—Unverified
Nonstationary Continuum-Armed Bandit Strategies for Automated Trading in a Simulated Financial Market	Aug 4, 2022	Bayesian OptimisationBayesian Optimization	CodeCode Available
Raising Student Completion Rates with Adaptive Curriculum and Contextual Bandits	Jul 28, 2022	Model-based Reinforcement LearningMulti-Armed Bandits	—Unverified
Towards Soft Fairness in Restless Multi-Armed Bandits	Jul 27, 2022	FairnessMulti-Armed Bandits	—Unverified
SPRT-based Efficient Best Arm Identification in Stochastic Bandits	Jul 22, 2022	Multi-Armed BanditsThompson Sampling	—Unverified

Show:10 25 50

← PrevPage 51 of 127Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified