Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 601–650 of 655 papers

Title	Date	Tasks	Status
Stacked Thompson Bandits	Feb 28, 2017	Thompson Sampling	CodeCode Available
Thompson Sampling For Stochastic Bandits with Graph Feedback	Jan 16, 2017	Thompson Sampling	—Unverified
Estimating Quality in Multi-Objective Bandits Optimization	Jan 4, 2017	Thompson Sampling	—Unverified
Exploration for Multi-task Reinforcement Learning with Deep Generative Models	Nov 29, 2016	reinforcement-learningReinforcement Learning	—Unverified
Nonparametric General Reinforcement Learning	Nov 28, 2016	General Reinforcement Learningreinforcement-learning	—Unverified
Linear Thompson Sampling Revisited	Nov 20, 2016	Thompson Sampling	—Unverified
Unimodal Thompson Sampling for Graph-Structured Arms	Nov 17, 2016	Thompson Sampling	—Unverified
The End of Optimism? An Asymptotic Analysis of Finite-Armed Linear Bandits	Oct 14, 2016	reinforcement-learningReinforcement Learning	—Unverified
A Formal Solution to the Grain of Truth Problem	Sep 16, 2016	Thompson Sampling	—Unverified
BBQ-Networks: Efficient Exploration in Deep Reinforcement Learning for Task-Oriented Dialogue Systems	Aug 17, 2016	Deep Reinforcement LearningEfficient Exploration	—Unverified
Human collective intelligence as distributed Bayesian inference	Aug 5, 2016	Bayesian InferenceDecision Making	—Unverified
Asymptotically Optimal Algorithms for Budgeted Multiple Play Bandits	Jun 30, 2016	Thompson Sampling	—Unverified
Online Algorithms For Parameter Mean And Variance Estimation In Dynamic Regression Models	May 18, 2016	parameter estimationregression	—Unverified
Linear Bandit algorithms using the Bootstrap	May 4, 2016	Thompson Sampling	—Unverified
Double Thompson Sampling for Dueling Bandits	Apr 25, 2016	Thompson Sampling	CodeCode Available
An Unbiased Data Collection and Content Exploitation/Exploration Strategy for Personalization	Apr 12, 2016	Recommendation SystemsThompson Sampling	—Unverified
A sequential Monte Carlo approach to Thompson sampling for Bayesian optimization	Apr 1, 2016	Bayesian OptimizationThompson Sampling	—Unverified
Optimal Recommendation to Users that React: Online Learning for a Class of POMDPs	Mar 30, 2016	Recommendation SystemsReinforcement Learning	—Unverified
Cascading Bandits for Large-Scale Recommendation Problems	Mar 17, 2016	Multi-Armed BanditsRecommendation Systems	CodeCode Available
Simple Bayesian Algorithms for Best Arm Identification	Feb 26, 2016	Thompson Sampling	—Unverified
Thompson Sampling is Asymptotically Optimal in General Environments	Feb 25, 2016	reinforcement-learningReinforcement Learning	—Unverified
Convolutional Monte Carlo Rollouts in Go	Dec 10, 2015	GPUThompson Sampling	—Unverified
Efficient Thompson Sampling for Online Matrix-Factorization Recommendation	Dec 1, 2015	Collaborative FilteringRecommendation Systems	—Unverified
Regret Analysis of the Finite-Horizon Gittins Index Strategy for Multi-Armed Bandits	Nov 18, 2015	Multi-Armed BanditsThompson Sampling	—Unverified
TSEB: More Efficient Thompson Sampling for Policy Learning	Oct 10, 2015	Thompson Sampling	—Unverified
Incentivizing Exploration In Reinforcement Learning With Deep Predictive Models	Jul 3, 2015	Atari Gamesreinforcement-learning	CodeCode Available
Bootstrapped Thompson Sampling and Deep Exploration	Jul 1, 2015	reinforcement-learningReinforcement Learning	—Unverified
On the Prior Sensitivity of Thompson Sampling	Jun 10, 2015	SensitivityThompson Sampling	—Unverified
Optimal Regret Analysis of Thompson Sampling in Stochastic Multi-armed Bandit Problem with Multiple Plays	Jun 2, 2015	Thompson Sampling	CodeCode Available
Belief Flows of Robust Online Learning	May 26, 2015	General Classificationregression	—Unverified
Thompson Sampling for Budgeted Multi-armed Bandits	May 1, 2015	Multi-Armed BanditsThompson Sampling	—Unverified
Evaluation of Explore-Exploit Policies in Multi-result Ranking Systems	Apr 28, 2015	News RecommendationThompson Sampling	—Unverified
A Note on Information-Directed Sampling and Thompson Sampling	Mar 24, 2015	Thompson Sampling	—Unverified
Bandit Convex Optimization: sqrtT Regret in One Dimension	Feb 23, 2015	Thompson Sampling	—Unverified
Thompson sampling with the online bootstrap	Oct 15, 2014	Thompson Sampling	—Unverified
Freshness-Aware Thompson Sampling	Sep 29, 2014	Recommendation SystemsThompson Sampling	—Unverified
Towards Optimal Algorithms for Prediction with Expert Advice	Sep 10, 2014	PredictionThompson Sampling	—Unverified
Thompson Sampling for Learning Parameterized Markov Decision Processes	Jun 29, 2014	Formreinforcement-learning	—Unverified
Efficient Learning in Large-Scale Combinatorial Semi-Bandits	Jun 28, 2014	Thompson Sampling	—Unverified
An Information-Theoretic Analysis of Thompson Sampling	Mar 21, 2014	Thompson Sampling	—Unverified
Better Optimism By Bayes: Adaptive Planning with Rich Models	Feb 9, 2014	Model-based Reinforcement LearningReinforcement Learning	—Unverified
Bayesian Mixture Modelling and Inference based Thompson Sampling in Monte-Carlo Tree Search	Dec 1, 2013	Thompson Sampling	—Unverified
Eluder Dimension and the Sample Complexity of Optimistic Exploration	Dec 1, 2013	Thompson Sampling	—Unverified
Thompson Sampling for Complex Bandit Problems	Nov 3, 2013	Thompson Sampling	—Unverified
Thompson Sampling for Online Learning with Linear Experts	Nov 3, 2013	Thompson Sampling	—Unverified
Generalized Thompson Sampling for Contextual Bandits	Oct 27, 2013	Multi-Armed BanditsThompson Sampling	—Unverified
Thompson Sampling in Dynamic Systems for Contextual Bandit Problems	Oct 17, 2013	Thompson Sampling	—Unverified
Thompson Sampling for 1-Dimensional Exponential Family Bandits	Jul 12, 2013	Thompson Sampling	—Unverified
Cover Tree Bayesian Reinforcement Learning	May 8, 2013	reinforcement-learningReinforcement Learning	—Unverified
Prior-free and prior-dependent regret bounds for Thompson Sampling	Apr 21, 2013	Thompson Sampling	—Unverified

Show:10 25 50

← PrevPage 13 of 14Next →

No leaderboard results yet.