Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 326–350 of 655 papers

Title	Date	Tasks	Status
Online Learning of Network Bottlenecks via Minimax Paths	Sep 17, 2021	Thompson Sampling	—Unverified
Machine Learning for Online Algorithm Selection under Censored Feedback	Sep 13, 2021	BIG-bench Machine LearningThompson Sampling	CodeCode Available
Thompson Sampling for Bandits with Clustered Arms	Sep 6, 2021	ClusteringThompson Sampling	—Unverified
A Unifying Theory of Thompson Sampling for Continuous Risk-Averse Bandits	Aug 25, 2021	Thompson Sampling	CodeCode Available
A relaxed technical assumption for posterior sampling-based reinforcement learning for control of unknown linear systems	Aug 19, 2021	Thompson Sampling	—Unverified
Scalable regret for learning to control network-coupled subsystems with unknown dynamics	Aug 18, 2021	Thompson Sampling	—Unverified
Batched Thompson Sampling for Multi-Armed Bandits	Aug 15, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
Metadata-based Multi-Task Bandits with Bayesian Hierarchical Models	Aug 13, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
Debiasing Samples from Online Learning Using Bootstrap	Jul 31, 2021	Off-policy evaluationThompson Sampling	—Unverified
Adaptively Optimize Content Recommendation Using Multi Armed Bandit Algorithms in E-commerce	Jul 30, 2021	Thompson Sampling	—Unverified
From Predictions to Decisions: The Importance of Joint Predictive Distributions	Jul 20, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
GuideBoot: Guided Bootstrap for Deep Contextual Bandits	Jul 18, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
No Regrets for Learning the Prior in Bandits	Jul 13, 2021	Thompson Sampling	—Unverified
Metalearning Linear Bandits by Prior Update	Jul 12, 2021	Decision MakingSequential Decision Making	—Unverified
Bayesian decision-making under misspecified priors with applications to meta-learning	Jul 3, 2021	Decision MakingMeta-Learning	—Unverified
Markov Decision Process modeled with Bandits for Sequential Decision Making in Linear-flow	Jul 1, 2021	Decision MakingMarketing	—Unverified
Random Effect Bandits	Jun 23, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
Thompson Sampling for Unimodal Bandits	Jun 15, 2021	Thompson Sampling	—Unverified
Thompson Sampling with a Mixture Prior	Jun 10, 2021	Decision MakingMulti-Task Learning	—Unverified
Multi-armed Bandit Algorithms on System-on-Chip: Go Frequentist or Bayesian?	Jun 5, 2021	Thompson Sampling	—Unverified
A Closer Look at the Worst-case Behavior of Multi-armed Bandit Algorithms	Jun 3, 2021	Thompson Sampling	—Unverified
Parallelizing Thompson Sampling	Jun 2, 2021	Decision MakingThompson Sampling	—Unverified
Kolmogorov-Smirnov Test-Based Actively-Adaptive Thompson Sampling for Non-Stationary Bandits	May 30, 2021	Edge-computingPortfolio Optimization	—Unverified
Asymptotically Optimal Bandits under Weighted Information	May 28, 2021	Thompson Sampling	—Unverified
Diffusion Approximations for Thompson Sampling	May 19, 2021	Multi-Armed BanditsThompson Sampling	—Unverified

Show:10 25 50

← PrevPage 14 of 27Next →

No leaderboard results yet.