Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–375 of 655 papers

Title	Date	Tasks	Status	Hype
Model-based Meta Reinforcement Learning using Graph Structured Surrogate Models	Feb 16, 2021	Decision MakingMeta Reinforcement Learning	—Unverified	0
Near-Optimal Algorithms for Differentially Private Online Learning in a Stochastic Environment	Feb 16, 2021	Thompson Sampling	—Unverified	0
The Elliptical Potential Lemma for General Distributions with an Application to Linear Thompson Sampling	Feb 16, 2021	Decision MakingLEMMA	—Unverified	0
Meta-Thompson Sampling	Feb 11, 2021	Efficient ExplorationMeta-Learning	—Unverified	0
On the Suboptimality of Thompson Sampling in High Dimensions	Feb 10, 2021	Thompson SamplingVocal Bursts Intensity Prediction	CodeCode Available	0
State-Aware Variational Thompson Sampling for Deep Q-Networks	Feb 7, 2021	Thompson Sampling	CodeCode Available	0
Doubly robust Thompson sampling for linear payoffs	Feb 1, 2021	Thompson Sampling	—Unverified	0
Weak Signal Asymptotics for Sequentially Randomized Experiments	Jan 25, 2021	Thompson Sampling	—Unverified	0
An empirical evaluation of active inference in multi-armed bandits	Jan 21, 2021	BIG-bench Machine LearningDecision Making	CodeCode Available	1
Scalable Optimization for Wind Farm Control using Coordination Graphs	Jan 19, 2021	Thompson Sampling	CodeCode Available	0
TSEC: a framework for online experimentation under experimental constraints	Jan 17, 2021	Portfolio OptimizationThompson Sampling	—Unverified	0
Deciding What to Learn: A Rate-Distortion Approach	Jan 15, 2021	Decision MakingSequential Decision Making	—Unverified	0
Etat de l'art sur l'application des bandits multi-bras	Jan 4, 2021	Thompson Sampling	—Unverified	0
Meta-Reinforcement Learning With Informed Policy Regularization	Jan 1, 2021	Meta Reinforcement Learningreinforcement-learning	—Unverified	0
Learning to Play Imperfect-Information Games by Imitating an Oracle Planner	Dec 22, 2020	Thompson Sampling	CodeCode Available	0
Aging Bandits: Regret Analysis and Order-Optimal Learning Algorithm for Wireless Networks with Stochastic Arrivals	Dec 16, 2020	Thompson Sampling	—Unverified	0
Mercer Features for Efficient Combinatorial Bayesian Optimization	Dec 14, 2020	Bayesian OptimizationThompson Sampling	CodeCode Available	1
Reinforcement Learning with Subspaces using Free Energy Paradigm	Dec 13, 2020	reinforcement-learningReinforcement Learning	—Unverified	0
Optimal Thompson Sampling strategies for support-aware CVaR bandits	Dec 10, 2020	Thompson Sampling	CodeCode Available	1
Distributed Thompson Sampling	Dec 3, 2020	Multi-Armed BanditsThompson Sampling	—Unverified	0
Non-Stationary Latent Bandits	Dec 1, 2020	Recommendation SystemsThompson Sampling	—Unverified	0
On Efficiency in Hierarchical Reinforcement Learning	Dec 1, 2020	Computational EfficiencyDecision Making	—Unverified	0
Distilled Thompson Sampling: Practical and Efficient Thompson Sampling via Imitation Learning	Nov 29, 2020	Action GenerationDecision Making	—Unverified	0
Reward Biased Maximum Likelihood Estimation for Reinforcement Learning	Nov 16, 2020	Multi-Armed Banditsreinforcement-learning	—Unverified	0
Risk-Constrained Thompson Sampling for CVaR Bandits	Nov 16, 2020	Decision MakingThompson Sampling	—Unverified	0

Show:10 25 50

← PrevPage 15 of 27Next →

No leaderboard results yet.