SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 581–590 of 655 papers

Title	Date	Tasks	Status
Calibrated Fairness in Bandits	Jul 6, 2017	Decision MakingFairness	—Unverified
A Practical Method for Solving Contextual Bandit Problems Using Decision Trees	Jun 14, 2017	Thompson Sampling	—Unverified
Bandit Models of Human Behavior: Reward Processing in Mental Disorders	Jun 7, 2017	Decision MakingThompson Sampling	—Unverified
Parallel and Distributed Thompson Sampling for Large-scale Accelerated Exploration of Chemical Space	Jun 6, 2017	Bayesian OptimizationThompson Sampling	—Unverified
Thompson Sampling for the MNL-Bandit	Jun 3, 2017	Thompson Sampling	—Unverified
Scalable Generalized Linear Bandits: Online Computation and Hashing	Jun 1, 2017	Thompson Sampling	—Unverified
Asynchronous Parallel Bayesian Optimisation via Thompson Sampling	May 25, 2017	Bayesian OptimisationThompson Sampling	CodeCode Available
A Multi-Armed Bandit to Smartly Select a Training Set from Big Medical Data	May 23, 2017	Thompson Sampling	—Unverified
AIXIjs: A Software Demo for General Reinforcement Learning	May 22, 2017	General Reinforcement LearningOpenAI Gym	CodeCode Available
Ensemble Sampling	May 20, 2017	Thompson Sampling	—Unverified

Show:10 25 50

← PrevPage 59 of 66Next →

No leaderboard results yet.