Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 655 papers

Title	Date	Tasks	Status	Hype
Variational Bayesian Optimistic Sampling	Oct 29, 2021	Thompson Sampling	—Unverified	0
Differentially Private Federated Bayesian Optimization with Distributed Exploration	Oct 27, 2021	Bayesian OptimizationFederated Learning	—Unverified	0
Analysis of Thompson Sampling for Partially Observable Contextual Multi-Armed Bandits	Oct 23, 2021	Decision MakingMulti-Armed Bandits	—Unverified	0
Diversified Sampling for Batched Bayesian Optimization with Determinantal Point Processes	Oct 22, 2021	Bayesian OptimizationDiversity	—Unverified	0
Show Me the Whole World: Towards Entire Item Space Exploration for Interactive Personalized Recommendations	Oct 19, 2021	Decision MakingModel Selection	CodeCode Available	0
EE-Net: Exploitation-Exploration Neural Networks in Contextual Bandits	Oct 7, 2021	Multi-Armed BanditsThompson Sampling	CodeCode Available	1
Feel-Good Thompson Sampling for Contextual Bandits and Reinforcement Learning	Oct 2, 2021	Multi-Armed Banditsregression	—Unverified	0
Batched Thompson Sampling	Oct 1, 2021	Multi-Armed BanditsThompson Sampling	—Unverified	0
Asymptotic Performance of Thompson Sampling in the Batched Multi-Armed Bandits	Oct 1, 2021	Multi-Armed BanditsThompson Sampling	—Unverified	0
Regularized-OFU: an efficient algorithm for general contextual bandit with optimization oracles	Sep 29, 2021	Multi-Armed BanditsThompson Sampling	—Unverified	0
Expected Improvement-based Contextual Bandits	Sep 29, 2021	Bayesian OptimizationMulti-Armed Bandits	—Unverified	0
Apple Tasting Revisited: Bayesian Approaches to Partially Monitored Online Binary Classification	Sep 29, 2021	Binary ClassificationThompson Sampling	—Unverified	0
Deep Exploration for Recommendation Systems	Sep 26, 2021	Recommendation SystemsThompson Sampling	—Unverified	0
Vaccine allocation policy optimization and budget sharing mechanism using Thompson sampling	Sep 21, 2021	Decision MakingManagement	CodeCode Available	0
Online Learning of Network Bottlenecks via Minimax Paths	Sep 17, 2021	Thompson Sampling	—Unverified	0
Machine Learning for Online Algorithm Selection under Censored Feedback	Sep 13, 2021	BIG-bench Machine LearningThompson Sampling	CodeCode Available	0
Thompson Sampling for Bandits with Clustered Arms	Sep 6, 2021	ClusteringThompson Sampling	—Unverified	0
A Unifying Theory of Thompson Sampling for Continuous Risk-Averse Bandits	Aug 25, 2021	Thompson Sampling	CodeCode Available	0
A relaxed technical assumption for posterior sampling-based reinforcement learning for control of unknown linear systems	Aug 19, 2021	Thompson Sampling	—Unverified	0
Scalable regret for learning to control network-coupled subsystems with unknown dynamics	Aug 18, 2021	Thompson Sampling	—Unverified	0
Batched Thompson Sampling for Multi-Armed Bandits	Aug 15, 2021	Multi-Armed BanditsThompson Sampling	—Unverified	0
Metadata-based Multi-Task Bandits with Bayesian Hierarchical Models	Aug 13, 2021	Multi-Armed BanditsThompson Sampling	—Unverified	0
Debiasing Samples from Online Learning Using Bootstrap	Jul 31, 2021	Off-policy evaluationThompson Sampling	—Unverified	0
Adaptively Optimize Content Recommendation Using Multi Armed Bandit Algorithms in E-commerce	Jul 30, 2021	Thompson Sampling	—Unverified	0
From Predictions to Decisions: The Importance of Joint Predictive Distributions	Jul 20, 2021	Multi-Armed BanditsThompson Sampling	—Unverified	0
GuideBoot: Guided Bootstrap for Deep Contextual Bandits	Jul 18, 2021	Multi-Armed BanditsThompson Sampling	—Unverified	0
No Regrets for Learning the Prior in Bandits	Jul 13, 2021	Thompson Sampling	—Unverified	0
Metalearning Linear Bandits by Prior Update	Jul 12, 2021	Decision MakingSequential Decision Making	—Unverified	0
Bayesian decision-making under misspecified priors with applications to meta-learning	Jul 3, 2021	Decision MakingMeta-Learning	—Unverified	0
Markov Decision Process modeled with Bandits for Sequential Decision Making in Linear-flow	Jul 1, 2021	Decision MakingMarketing	—Unverified	0
Random Effect Bandits	Jun 23, 2021	Multi-Armed BanditsThompson Sampling	—Unverified	0
Thompson Sampling for Unimodal Bandits	Jun 15, 2021	Thompson Sampling	—Unverified	0
Thompson Sampling with a Mixture Prior	Jun 10, 2021	Decision MakingMulti-Task Learning	—Unverified	0
Multi-armed Bandit Algorithms on System-on-Chip: Go Frequentist or Bayesian?	Jun 5, 2021	Thompson Sampling	—Unverified	0
A Closer Look at the Worst-case Behavior of Multi-armed Bandit Algorithms	Jun 3, 2021	Thompson Sampling	—Unverified	0
Parallelizing Thompson Sampling	Jun 2, 2021	Decision MakingThompson Sampling	—Unverified	0
Kolmogorov-Smirnov Test-Based Actively-Adaptive Thompson Sampling for Non-Stationary Bandits	May 30, 2021	Edge-computingPortfolio Optimization	—Unverified	0
Asymptotically Optimal Bandits under Weighted Information	May 28, 2021	Thompson Sampling	—Unverified	0
Diffusion Approximations for Thompson Sampling	May 19, 2021	Multi-Armed BanditsThompson Sampling	—Unverified	0
Thompson Sampling for Gaussian Entropic Risk Bandits	May 14, 2021	Decision MakingThompson Sampling	—Unverified	0
Deep Bandits Show-Off: Simple and Efficient Exploration with Deep Networks	May 10, 2021	Efficient ExplorationMulti-Armed Bandits	CodeCode Available	1
Dynamic Slate Recommendation with Gated Recurrent Units and Thompson Sampling	Apr 30, 2021	Recommendation SystemsThompson Sampling	CodeCode Available	1
High-dimensional near-optimal experiment design for drug discovery via Bayesian sparse sampling	Apr 23, 2021	Bayesian InferenceDrug Discovery	—Unverified	0
When and Whom to Collaborate with in a Changing Environment: A Collaborative Dynamic Bandit Solution	Apr 14, 2021	Bayesian InferenceCollaborative Filtering	—Unverified	0
Blind Exploration and Exploitation of Stochastic Experts	Apr 2, 2021	Thompson Sampling	—Unverified	0
Challenges in Statistical Analysis of Data Collected by a Bandit Algorithm: An Empirical Exploration in Applications to Adaptively Randomized Experiments	Mar 22, 2021	Thompson Sampling	—Unverified	0
Constrained Contextual Bandit Learning for Adaptive Radar Waveform Selection	Mar 9, 2021	Thompson Sampling	—Unverified	0
Efficient Optimal Selection for Composited Advertising Creatives with Tree Structure	Mar 2, 2021	Efficient ExplorationThompson Sampling	CodeCode Available	0
Automated Creative Optimization for E-Commerce Advertising	Feb 28, 2021	AutoMLClick-Through Rate Prediction	CodeCode Available	0
Online Multi-Armed Bandits with Adaptive Inference	Feb 25, 2021	Causal InferenceDecision Making	—Unverified	0

Show:10 25 50

← PrevPage 7 of 14Next →

No leaderboard results yet.