Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 551–575 of 655 papers

Title	Date	Tasks	Status
Efficient Exploration through Bayesian Deep Q-Networks	Feb 13, 2018	Atari GamesEfficient Exploration	CodeCode Available
Thompson Sampling for Dynamic Pricing	Feb 8, 2018	Active LearningThompson Sampling	—Unverified
Information Directed Sampling and Bandits with Heteroscedastic Noise	Jan 29, 2018	Bayesian OptimizationThompson Sampling	—Unverified
Active Search for High Recall: a Non-Stationary Extension of Thompson Sampling	Dec 27, 2017	Multi-Armed BanditsThompson Sampling	—Unverified
On Adaptive Estimation for Dynamic Bernoulli Bandits	Dec 8, 2017	Thompson Sampling	—Unverified
Optimistic posterior sampling for reinforcement learning: worst-case regret bounds	Dec 1, 2017	reinforcement-learningReinforcement Learning	—Unverified
Efficient exploration with Double Uncertain Value Networks	Nov 29, 2017	Efficient ExplorationReinforcement Learning	—Unverified
Customized Nonlinear Bandits for Online Response Selection in Neural Conversation Models	Nov 22, 2017	Multi-Armed BanditsResponse Generation	—Unverified
Bayesian Best-Arm Identification for Selecting Influenza Mitigation Strategies	Nov 16, 2017	Decision MakingThompson Sampling	—Unverified
BBQ-Networks: Efficient Exploration in Deep Reinforcement Learning for Task-Oriented Dialogue Systems	Nov 15, 2017	Deep Reinforcement LearningEfficient Exploration	—Unverified
Estimating prediction error for complex samples	Nov 13, 2017	PredictionSurvey	—Unverified
Efficient-UCBV: An Almost Optimal Algorithm using Variance Estimates	Nov 9, 2017	Thompson Sampling	—Unverified
Information Directed Sampling for Stochastic Bandits with Graph Feedback	Nov 8, 2017	Decision MakingThompson Sampling	—Unverified
The Effect of Communication on Noncooperative Multiplayer Multi-Armed Bandit Problems	Nov 5, 2017	Thompson Sampling	—Unverified
Generalized Probabilistic Bisection for Stochastic Root-Finding	Nov 2, 2017	Thompson Sampling	—Unverified
Minimal Exploration in Structured Stochastic Bandits	Nov 1, 2017	Thompson Sampling	—Unverified
Sequential Matrix Completion	Oct 23, 2017	Collaborative FilteringMatrix Completion	—Unverified
A study of Thompson Sampling with Parameter h	Oct 5, 2017	Thompson Sampling	—Unverified
Learning Unknown Markov Decision Processes: A Thompson Sampling Approach	Sep 14, 2017	Reinforcement LearningThompson Sampling	—Unverified
Adaptive Exploration-Exploitation Tradeoff for Opportunistic Bandits	Sep 12, 2017	Thompson Sampling	—Unverified
Bayesian bandits: balancing the exploration-exploitation tradeoff via double sampling	Sep 10, 2017	Reinforcement LearningThompson Sampling	CodeCode Available
Variational inference for the multi-armed contextual bandit	Sep 10, 2017	Multi-Armed BanditsReinforcement Learning	CodeCode Available
Learning to Price with Reference Effects	Aug 29, 2017	Reinforcement LearningThompson Sampling	—Unverified
Racing Thompson: an Efficient Algorithm for Thompson Sampling with Non-conjugate Priors	Aug 16, 2017	Thompson Sampling	—Unverified
Thompson Sampling Guided Stochastic Searching on the Line for Deceptive Environments with Applications to Root-Finding Problems	Aug 5, 2017	Stochastic OptimizationThompson Sampling	—Unverified

Show:10 25 50

← PrevPage 23 of 27Next →

No leaderboard results yet.