Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 601–625 of 655 papers

Title	Date	Tasks	Status
Stacked Thompson Bandits	Feb 28, 2017	Thompson Sampling	CodeCode Available
Thompson Sampling For Stochastic Bandits with Graph Feedback	Jan 16, 2017	Thompson Sampling	—Unverified
Estimating Quality in Multi-Objective Bandits Optimization	Jan 4, 2017	Thompson Sampling	—Unverified
Exploration for Multi-task Reinforcement Learning with Deep Generative Models	Nov 29, 2016	reinforcement-learningReinforcement Learning	—Unverified
Nonparametric General Reinforcement Learning	Nov 28, 2016	General Reinforcement Learningreinforcement-learning	—Unverified
Linear Thompson Sampling Revisited	Nov 20, 2016	Thompson Sampling	—Unverified
Unimodal Thompson Sampling for Graph-Structured Arms	Nov 17, 2016	Thompson Sampling	—Unverified
The End of Optimism? An Asymptotic Analysis of Finite-Armed Linear Bandits	Oct 14, 2016	reinforcement-learningReinforcement Learning	—Unverified
A Formal Solution to the Grain of Truth Problem	Sep 16, 2016	Thompson Sampling	—Unverified
BBQ-Networks: Efficient Exploration in Deep Reinforcement Learning for Task-Oriented Dialogue Systems	Aug 17, 2016	Deep Reinforcement LearningEfficient Exploration	—Unverified
Human collective intelligence as distributed Bayesian inference	Aug 5, 2016	Bayesian InferenceDecision Making	—Unverified
Asymptotically Optimal Algorithms for Budgeted Multiple Play Bandits	Jun 30, 2016	Thompson Sampling	—Unverified
Online Algorithms For Parameter Mean And Variance Estimation In Dynamic Regression Models	May 18, 2016	parameter estimationregression	—Unverified
Linear Bandit algorithms using the Bootstrap	May 4, 2016	Thompson Sampling	—Unverified
Double Thompson Sampling for Dueling Bandits	Apr 25, 2016	Thompson Sampling	CodeCode Available
An Unbiased Data Collection and Content Exploitation/Exploration Strategy for Personalization	Apr 12, 2016	Recommendation SystemsThompson Sampling	—Unverified
A sequential Monte Carlo approach to Thompson sampling for Bayesian optimization	Apr 1, 2016	Bayesian OptimizationThompson Sampling	—Unverified
Optimal Recommendation to Users that React: Online Learning for a Class of POMDPs	Mar 30, 2016	Recommendation SystemsReinforcement Learning	—Unverified
Cascading Bandits for Large-Scale Recommendation Problems	Mar 17, 2016	Multi-Armed BanditsRecommendation Systems	CodeCode Available
Simple Bayesian Algorithms for Best Arm Identification	Feb 26, 2016	Thompson Sampling	—Unverified
Thompson Sampling is Asymptotically Optimal in General Environments	Feb 25, 2016	reinforcement-learningReinforcement Learning	—Unverified
Convolutional Monte Carlo Rollouts in Go	Dec 10, 2015	GPUThompson Sampling	—Unverified
Efficient Thompson Sampling for Online Matrix-Factorization Recommendation	Dec 1, 2015	Collaborative FilteringRecommendation Systems	—Unverified
Regret Analysis of the Finite-Horizon Gittins Index Strategy for Multi-Armed Bandits	Nov 18, 2015	Multi-Armed BanditsThompson Sampling	—Unverified
TSEB: More Efficient Thompson Sampling for Policy Learning	Oct 10, 2015	Thompson Sampling	—Unverified

Show:10 25 50

← PrevPage 25 of 27Next →

No leaderboard results yet.