Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 655 papers

Title	Date	Tasks	Status	Score
Odds-Ratio Thompson Sampling to Control for Time-Varying Effect	Mar 4, 2020	Thompson Sampling	CodeCode Available	5
Old Dog Learns New Tricks: Randomized UCB for Bandit Problems	Oct 11, 2019	Thompson Sampling	CodeCode Available	5
Multi-Agent Active Search using Realistic Depth-Aware Noise Model	Nov 9, 2020	object-detectionObject Detection	CodeCode Available	5
Online Learning of Decision Trees with Thompson Sampling	Apr 9, 2024	Interpretable Machine LearningThompson Sampling	CodeCode Available	5
Optimal Regret Analysis of Thompson Sampling in Stochastic Multi-armed Bandit Problem with Multiple Plays	Jun 2, 2015	Thompson Sampling	CodeCode Available	5
Optimal Regret Is Achievable with Bounded Approximate Inference Error: An Enhanced Bayesian Upper Confidence Bound Framework	Jan 31, 2022	Bayesian InferenceMulti-Armed Bandits	CodeCode Available	5
Incentivizing Exploration In Reinforcement Learning With Deep Predictive Models	Jul 3, 2015	Atari Gamesreinforcement-learning	CodeCode Available	5
Optimizing Pessimism in Dynamic Treatment Regimes: A Bayesian Learning Approach	Oct 26, 2022	Thompson SamplingVariational Inference	CodeCode Available	5
Finite-Time Frequentist Regret Bounds of Multi-Agent Thompson Sampling on Sparse Hypergraphs	Dec 24, 2023	Computational EfficiencyThompson Sampling	CodeCode Available	5
Information-Directed Exploration for Deep Reinforcement Learning	Dec 18, 2018	Atari GamesDeep Reinforcement Learning	CodeCode Available	5
Modeling Human Exploration Through Resource-Rational Reinforcement Learning	Jan 27, 2022	Meta-Learningreinforcement-learning	CodeCode Available	5
Randomized Value Functions via Multiplicative Normalizing Flows	Jun 6, 2018	Efficient ExplorationThompson Sampling	CodeCode Available	5
Evaluating Deep Vs. Wide & Deep Learners As Contextual Bandits For Personalized Email Promo Recommendations	Jan 31, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available	5
Fast, Precise Thompson Sampling for Bayesian Optimization	Nov 26, 2024	Bayesian OptimizationSTS	CodeCode Available	5
Kullback-Leibler Maillard Sampling for Multi-armed Bandits with Bounded Rewards	Apr 28, 2023	Multi-Armed BanditsThompson Sampling	CodeCode Available	5
Multi-armed bandits for resource efficient, online optimization of language model pre-training: the use case of dynamic masking	Mar 24, 2022	Bayesian OptimizationDecision Making	CodeCode Available	5
Dynamic Assortment Selection and Pricing with Censored Preference Feedback	Apr 3, 2025	Thompson Sampling	CodeCode Available	5
Adaptive Thompson Sampling Stacks for Memory Bounded Open-Loop Planning	Jul 11, 2019	Thompson Sampling	CodeCode Available	5
Double Thompson Sampling for Dueling Bandits	Apr 25, 2016	Thompson Sampling	CodeCode Available	5
Deep Bayesian Bandits Showdown: An Empirical Comparison of Bayesian Deep Networks for Thompson Sampling	Feb 26, 2018	Decision MakingDeep Reinforcement Learning	CodeCode Available	5
Differentially Private Online Bayesian Estimation With Adaptive Truncation	Jan 19, 2023	Privacy PreservingSensitivity	CodeCode Available	5
Cost-Efficient Online Decision Making: A Combinatorial Multi-Armed Bandit Approach	Aug 21, 2023	Decision MakingMulti-Armed Bandits	CodeCode Available	5
Bandit-Based Prompt Design Strategy Selection Improves Prompt Optimizers	Mar 3, 2025	Prompt EngineeringThompson Sampling	CodeCode Available	5
RoME: A Robust Mixed-Effects Bandit Algorithm for Optimizing Mobile Health Interventions	Dec 11, 2023	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	5
Distributed Thompson sampling under constrained communication	Oct 21, 2024	Bayesian OptimizationThompson Sampling	CodeCode Available	5
Two-sided Competing Matching Recommendation Markets With Quota and Complementary Preferences Constraints	Jan 24, 2023	Thompson Sampling	CodeCode Available	5
Efficient Exploration through Bayesian Deep Q-Networks	Feb 13, 2018	Atari GamesEfficient Exploration	CodeCode Available	5
Cascading Bandits for Large-Scale Recommendation Problems	Mar 17, 2016	Multi-Armed BanditsRecommendation Systems	CodeCode Available	5
Addressing Missing Data Issue for Diffusion-based Recommendation	May 18, 2025	DenoisingThompson Sampling	CodeCode Available	5
ESCADA: Efficient Safety and Context Aware Dose Allocation for Precision Medicine	Nov 26, 2021	Thompson Sampling	CodeCode Available	5
Accelerating Approximate Thompson Sampling with Underdamped Langevin Monte Carlo	Jan 22, 2024	Thompson Sampling	CodeCode Available	5
Evolutionary Multi-Armed Bandits with Genetic Thompson Sampling	Apr 26, 2022	Decision MakingEvolutionary Algorithms	CodeCode Available	5
Causal Bandits for Linear Structural Equation Models	Aug 26, 2022	Thompson Sampling	CodeCode Available	5
FedRTS: Federated Robust Pruning via Combinatorial Thompson Sampling	Jan 31, 2025	Federated LearningThompson Sampling	CodeCode Available	5
Mixed-Effect Thompson Sampling	May 30, 2022	Thompson Sampling	CodeCode Available	5
Improving Portfolio Optimization Results with Bandit Networks	Oct 5, 2024	Portfolio OptimizationRecommendation Systems	CodeCode Available	5
Bayesian Non-stationary Linear Bandits for Large-Scale Recommender Systems	Feb 7, 2022	Decision MakingDimensionality Reduction	CodeCode Available	5
Bayesian bandits: balancing the exploration-exploitation tradeoff via double sampling	Sep 10, 2017	Reinforcement LearningThompson Sampling	CodeCode Available	5
Learning to Play Imperfect-Information Games by Imitating an Oracle Planner	Dec 22, 2020	Thompson Sampling	CodeCode Available	5
Machine Learning for Online Algorithm Selection under Censored Feedback	Sep 13, 2021	BIG-bench Machine LearningThompson Sampling	CodeCode Available	5
Bayesian Optimization for Categorical and Category-Specific Continuous Inputs	Nov 28, 2019	Bayesian OptimizationBIG-bench Machine Learning	CodeCode Available	5
MergeDTS: A Method for Effective Large-Scale Online Ranker Evaluation	Dec 11, 2018	Information RetrievalOnline Ranker Evaluation	CodeCode Available	5
Minimum Empirical Divergence for Sub-Gaussian Linear Bandits	Oct 31, 2024	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	5
Asynchronous ε-Greedy Bayesian Optimisation	Oct 15, 2020	Bayesian OptimisationThompson Sampling	CodeCode Available	5
Constructing Adversarial Examples for Vertical Federated Learning: Optimal Client Corruption through Multi-Armed Bandit	Aug 8, 2024	Federated LearningThompson Sampling	CodeCode Available	5
Asynchronous Parallel Bayesian Optimisation via Thompson Sampling	May 25, 2017	Bayesian OptimisationThompson Sampling	CodeCode Available	5
Atlas: Automate Online Service Configuration in Network Slicing	Oct 30, 2022	Bayesian OptimizationSafe Exploration	CodeCode Available	5
Bandit Learning with Implicit Feedback	Dec 1, 2018	Bayesian InferenceThompson Sampling	CodeCode Available	5
Adaptive Interventions with User-Defined Goals for Health Behavior Change	Nov 16, 2023	Thompson Sampling	CodeCode Available	5
A Unifying Theory of Thompson Sampling for Continuous Risk-Averse Bandits	Aug 25, 2021	Thompson Sampling	CodeCode Available	5

Show:10 25 50

← PrevPage 2 of 14Next →

No leaderboard results yet.