Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 551–600 of 655 papers

Title	Date	Tasks	Status
Efficient Exploration through Bayesian Deep Q-Networks	Feb 13, 2018	Atari GamesEfficient Exploration	CodeCode Available
Thompson Sampling for Dynamic Pricing	Feb 8, 2018	Active LearningThompson Sampling	—Unverified
Information Directed Sampling and Bandits with Heteroscedastic Noise	Jan 29, 2018	Bayesian OptimizationThompson Sampling	—Unverified
Active Search for High Recall: a Non-Stationary Extension of Thompson Sampling	Dec 27, 2017	Multi-Armed BanditsThompson Sampling	—Unverified
On Adaptive Estimation for Dynamic Bernoulli Bandits	Dec 8, 2017	Thompson Sampling	—Unverified
Optimistic posterior sampling for reinforcement learning: worst-case regret bounds	Dec 1, 2017	reinforcement-learningReinforcement Learning	—Unverified
Efficient exploration with Double Uncertain Value Networks	Nov 29, 2017	Efficient ExplorationReinforcement Learning	—Unverified
Customized Nonlinear Bandits for Online Response Selection in Neural Conversation Models	Nov 22, 2017	Multi-Armed BanditsResponse Generation	—Unverified
Bayesian Best-Arm Identification for Selecting Influenza Mitigation Strategies	Nov 16, 2017	Decision MakingThompson Sampling	—Unverified
BBQ-Networks: Efficient Exploration in Deep Reinforcement Learning for Task-Oriented Dialogue Systems	Nov 15, 2017	Deep Reinforcement LearningEfficient Exploration	—Unverified
Estimating prediction error for complex samples	Nov 13, 2017	PredictionSurvey	—Unverified
Efficient-UCBV: An Almost Optimal Algorithm using Variance Estimates	Nov 9, 2017	Thompson Sampling	—Unverified
Information Directed Sampling for Stochastic Bandits with Graph Feedback	Nov 8, 2017	Decision MakingThompson Sampling	—Unverified
The Effect of Communication on Noncooperative Multiplayer Multi-Armed Bandit Problems	Nov 5, 2017	Thompson Sampling	—Unverified
Generalized Probabilistic Bisection for Stochastic Root-Finding	Nov 2, 2017	Thompson Sampling	—Unverified
Minimal Exploration in Structured Stochastic Bandits	Nov 1, 2017	Thompson Sampling	—Unverified
Sequential Matrix Completion	Oct 23, 2017	Collaborative FilteringMatrix Completion	—Unverified
A study of Thompson Sampling with Parameter h	Oct 5, 2017	Thompson Sampling	—Unverified
Learning Unknown Markov Decision Processes: A Thompson Sampling Approach	Sep 14, 2017	Reinforcement LearningThompson Sampling	—Unverified
Adaptive Exploration-Exploitation Tradeoff for Opportunistic Bandits	Sep 12, 2017	Thompson Sampling	—Unverified
Bayesian bandits: balancing the exploration-exploitation tradeoff via double sampling	Sep 10, 2017	Reinforcement LearningThompson Sampling	CodeCode Available
Variational inference for the multi-armed contextual bandit	Sep 10, 2017	Multi-Armed BanditsReinforcement Learning	CodeCode Available
Learning to Price with Reference Effects	Aug 29, 2017	Reinforcement LearningThompson Sampling	—Unverified
Racing Thompson: an Efficient Algorithm for Thompson Sampling with Non-conjugate Priors	Aug 16, 2017	Thompson Sampling	—Unverified
Thompson Sampling Guided Stochastic Searching on the Line for Deceptive Environments with Applications to Root-Finding Problems	Aug 5, 2017	Stochastic OptimizationThompson Sampling	—Unverified
Reinforcement learning techniques for Outer Loop Link Adaptation in 4G/5G systems	Aug 3, 2017	Multi-Armed Banditsreinforcement-learning	—Unverified
Streaming kernel regression with provably adaptive mean, variance, and regularization	Aug 2, 2017	regressionThompson Sampling	—Unverified
Counterfactual Data-Fusion for Online Reinforcement Learners	Aug 1, 2017	counterfactualDecision Making	—Unverified
Taming Non-stationary Bandits: A Bayesian Approach	Jul 31, 2017	Thompson Sampling	—Unverified
Combinatorial Multi-armed Bandit with Probabilistically Triggered Arms: A Case with Bounded Regret	Jul 24, 2017	Movie RecommendationThompson Sampling	—Unverified
Calibrated Fairness in Bandits	Jul 6, 2017	Decision MakingFairness	—Unverified
A Practical Method for Solving Contextual Bandit Problems Using Decision Trees	Jun 14, 2017	Thompson Sampling	—Unverified
Bandit Models of Human Behavior: Reward Processing in Mental Disorders	Jun 7, 2017	Decision MakingThompson Sampling	—Unverified
Parallel and Distributed Thompson Sampling for Large-scale Accelerated Exploration of Chemical Space	Jun 6, 2017	Bayesian OptimizationThompson Sampling	—Unverified
Thompson Sampling for the MNL-Bandit	Jun 3, 2017	Thompson Sampling	—Unverified
Scalable Generalized Linear Bandits: Online Computation and Hashing	Jun 1, 2017	Thompson Sampling	—Unverified
Asynchronous Parallel Bayesian Optimisation via Thompson Sampling	May 25, 2017	Bayesian OptimisationThompson Sampling	CodeCode Available
A Multi-Armed Bandit to Smartly Select a Training Set from Big Medical Data	May 23, 2017	Thompson Sampling	—Unverified
AIXIjs: A Software Demo for General Reinforcement Learning	May 22, 2017	General Reinforcement LearningOpenAI Gym	CodeCode Available
Ensemble Sampling	May 20, 2017	Thompson Sampling	—Unverified
Posterior sampling for reinforcement learning: worst-case regret bounds	May 19, 2017	reinforcement-learningReinforcement Learning	—Unverified
Adaptive Rate of Convergence of Thompson Sampling for Gaussian Process Optimization	May 18, 2017	global-optimizationThompson Sampling	—Unverified
Context Attentive Bandits: Contextual Bandit with Restricted Context	May 10, 2017	Recommendation SystemsThompson Sampling	—Unverified
Multi-dueling Bandits with Dependent Arms	Apr 29, 2017	Thompson Sampling	—Unverified
Mostly Exploration-Free Algorithms for Contextual Bandits	Apr 28, 2017	DiversityMulti-Armed Bandits	CodeCode Available
Time-Sensitive Bandit Learning and Satisficing Thompson Sampling	Apr 28, 2017	Thompson Sampling	—Unverified
Efficient Benchmarking of NLP APIs using Multi-armed Bandits	Apr 1, 2017	BenchmarkingMulti-Armed Bandits	—Unverified
Thompson Sampling for Linear-Quadratic Control Problems	Mar 27, 2017	Reinforcement LearningThompson Sampling	—Unverified
Horde of Bandits using Gaussian Markov Random Fields	Mar 7, 2017	ClusteringMulti-Armed Bandits	—Unverified
QoS-Aware Multi-Armed Bandits	Feb 28, 2017	Decision MakingMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 12 of 14Next →

No leaderboard results yet.