SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 591–600 of 655 papers

Title	Date	Tasks	Status
Posterior sampling for reinforcement learning: worst-case regret bounds	May 19, 2017	reinforcement-learningReinforcement Learning	—Unverified
Adaptive Rate of Convergence of Thompson Sampling for Gaussian Process Optimization	May 18, 2017	global-optimizationThompson Sampling	—Unverified
Context Attentive Bandits: Contextual Bandit with Restricted Context	May 10, 2017	Recommendation SystemsThompson Sampling	—Unverified
Multi-dueling Bandits with Dependent Arms	Apr 29, 2017	Thompson Sampling	—Unverified
Time-Sensitive Bandit Learning and Satisficing Thompson Sampling	Apr 28, 2017	Thompson Sampling	—Unverified
Mostly Exploration-Free Algorithms for Contextual Bandits	Apr 28, 2017	DiversityMulti-Armed Bandits	CodeCode Available
Efficient Benchmarking of NLP APIs using Multi-armed Bandits	Apr 1, 2017	BenchmarkingMulti-Armed Bandits	—Unverified
Thompson Sampling for Linear-Quadratic Control Problems	Mar 27, 2017	Reinforcement LearningThompson Sampling	—Unverified
Horde of Bandits using Gaussian Markov Random Fields	Mar 7, 2017	ClusteringMulti-Armed Bandits	—Unverified
QoS-Aware Multi-Armed Bandits	Feb 28, 2017	Decision MakingMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 60 of 66Next →

No leaderboard results yet.