SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 411–420 of 655 papers

Title	Date	Tasks	Status
Reinforcement Learning with Trajectory Feedback	Aug 13, 2020	reinforcement-learningReinforcement Learning	—Unverified
Lenient Regret for Multi-Armed Bandits	Aug 10, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
IntelligentPooling: Practical Thompson Sampling for mHealth	Jul 31, 2020	reinforcement-learningReinforcement Learning	—Unverified
Greedy Bandits with Sampled Context	Jul 27, 2020	Decision MakingMulti-Armed Bandits	—Unverified
Influence Diagram Bandits: Variational Thompson Sampling for Structured Bandit Problems	Jul 9, 2020	Thompson Sampling	—Unverified
Variable Selection via Thompson Sampling	Jul 1, 2020	BIG-bench Machine LearningInterpretable Machine Learning	—Unverified
Policy Gradient Optimization of Thompson Sampling Policies	Jun 30, 2020	Policy Gradient MethodsThompson Sampling	—Unverified
Asynchronous Multi Agent Active Search	Jun 25, 2020	Bayesian OptimizationCompressive Sensing	—Unverified
Learning by Repetition: Stochastic Multi-armed Bandits under Priming Effect	Jun 18, 2020	Decision MakingMulti-Armed Bandits	—Unverified
Constrained Thompson Sampling for Real-Time Electricity Pricing with Grid Reliability Constraints	Jun 17, 2020	Thompson Sampling	—Unverified

Show:10 25 50

← PrevPage 42 of 66Next →

No leaderboard results yet.