Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 626–650 of 655 papers

Title	Date	Tasks	Status
Incentivizing Exploration In Reinforcement Learning With Deep Predictive Models	Jul 3, 2015	Atari Gamesreinforcement-learning	CodeCode Available
Bootstrapped Thompson Sampling and Deep Exploration	Jul 1, 2015	reinforcement-learningReinforcement Learning	—Unverified
On the Prior Sensitivity of Thompson Sampling	Jun 10, 2015	SensitivityThompson Sampling	—Unverified
Optimal Regret Analysis of Thompson Sampling in Stochastic Multi-armed Bandit Problem with Multiple Plays	Jun 2, 2015	Thompson Sampling	CodeCode Available
Belief Flows of Robust Online Learning	May 26, 2015	General Classificationregression	—Unverified
Thompson Sampling for Budgeted Multi-armed Bandits	May 1, 2015	Multi-Armed BanditsThompson Sampling	—Unverified
Evaluation of Explore-Exploit Policies in Multi-result Ranking Systems	Apr 28, 2015	News RecommendationThompson Sampling	—Unverified
A Note on Information-Directed Sampling and Thompson Sampling	Mar 24, 2015	Thompson Sampling	—Unverified
Bandit Convex Optimization: sqrtT Regret in One Dimension	Feb 23, 2015	Thompson Sampling	—Unverified
Thompson sampling with the online bootstrap	Oct 15, 2014	Thompson Sampling	—Unverified
Freshness-Aware Thompson Sampling	Sep 29, 2014	Recommendation SystemsThompson Sampling	—Unverified
Towards Optimal Algorithms for Prediction with Expert Advice	Sep 10, 2014	PredictionThompson Sampling	—Unverified
Thompson Sampling for Learning Parameterized Markov Decision Processes	Jun 29, 2014	Formreinforcement-learning	—Unverified
Efficient Learning in Large-Scale Combinatorial Semi-Bandits	Jun 28, 2014	Thompson Sampling	—Unverified
An Information-Theoretic Analysis of Thompson Sampling	Mar 21, 2014	Thompson Sampling	—Unverified
Better Optimism By Bayes: Adaptive Planning with Rich Models	Feb 9, 2014	Model-based Reinforcement LearningReinforcement Learning	—Unverified
Eluder Dimension and the Sample Complexity of Optimistic Exploration	Dec 1, 2013	Thompson Sampling	—Unverified
Bayesian Mixture Modelling and Inference based Thompson Sampling in Monte-Carlo Tree Search	Dec 1, 2013	Thompson Sampling	—Unverified
Thompson Sampling for Complex Bandit Problems	Nov 3, 2013	Thompson Sampling	—Unverified
Thompson Sampling for Online Learning with Linear Experts	Nov 3, 2013	Thompson Sampling	—Unverified
Generalized Thompson Sampling for Contextual Bandits	Oct 27, 2013	Multi-Armed BanditsThompson Sampling	—Unverified
Thompson Sampling in Dynamic Systems for Contextual Bandit Problems	Oct 17, 2013	Thompson Sampling	—Unverified
Thompson Sampling for 1-Dimensional Exponential Family Bandits	Jul 12, 2013	Thompson Sampling	—Unverified
Cover Tree Bayesian Reinforcement Learning	May 8, 2013	reinforcement-learningReinforcement Learning	—Unverified
Prior-free and prior-dependent regret bounds for Thompson Sampling	Apr 21, 2013	Thompson Sampling	—Unverified

Show:10 25 50

← PrevPage 26 of 27Next →

No leaderboard results yet.