SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 601–610 of 655 papers

Title	Date	Tasks	Status
Stacked Thompson Bandits	Feb 28, 2017	Thompson Sampling	CodeCode Available
Thompson Sampling For Stochastic Bandits with Graph Feedback	Jan 16, 2017	Thompson Sampling	—Unverified
Estimating Quality in Multi-Objective Bandits Optimization	Jan 4, 2017	Thompson Sampling	—Unverified
Exploration for Multi-task Reinforcement Learning with Deep Generative Models	Nov 29, 2016	reinforcement-learningReinforcement Learning	—Unverified
Nonparametric General Reinforcement Learning	Nov 28, 2016	General Reinforcement Learningreinforcement-learning	—Unverified
Linear Thompson Sampling Revisited	Nov 20, 2016	Thompson Sampling	—Unverified
Unimodal Thompson Sampling for Graph-Structured Arms	Nov 17, 2016	Thompson Sampling	—Unverified
The End of Optimism? An Asymptotic Analysis of Finite-Armed Linear Bandits	Oct 14, 2016	reinforcement-learningReinforcement Learning	—Unverified
A Formal Solution to the Grain of Truth Problem	Sep 16, 2016	Thompson Sampling	—Unverified
BBQ-Networks: Efficient Exploration in Deep Reinforcement Learning for Task-Oriented Dialogue Systems	Aug 17, 2016	Deep Reinforcement LearningEfficient Exploration	—Unverified

Show:10 25 50

← PrevPage 61 of 66Next →

No leaderboard results yet.