Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 655 papers

Title	Date	Tasks	Status	Score
Double Thompson Sampling for Dueling Bandits	Apr 25, 2016	Thompson Sampling	CodeCode Available	5
Improving Portfolio Optimization Results with Bandit Networks	Oct 5, 2024	Portfolio OptimizationRecommendation Systems	CodeCode Available	5
Two-sided Competing Matching Recommendation Markets With Quota and Complementary Preferences Constraints	Jan 24, 2023	Thompson Sampling	CodeCode Available	5
Kullback-Leibler Maillard Sampling for Multi-armed Bandits with Bounded Rewards	Apr 28, 2023	Multi-Armed BanditsThompson Sampling	CodeCode Available	5
Dynamic Assortment Selection and Pricing with Censored Preference Feedback	Apr 3, 2025	Thompson Sampling	CodeCode Available	5
Memory Bounded Open-Loop Planning in Large POMDPs using Thompson Sampling	May 10, 2019	Thompson Sampling	CodeCode Available	5
Accelerating Approximate Thompson Sampling with Underdamped Langevin Monte Carlo	Jan 22, 2024	Thompson Sampling	CodeCode Available	5
MergeDTS: A Method for Effective Large-Scale Online Ranker Evaluation	Dec 11, 2018	Information RetrievalOnline Ranker Evaluation	CodeCode Available	5
More Efficient Randomized Exploration for Reinforcement Learning via Approximate Sampling	Jun 18, 2024	reinforcement-learningReinforcement Learning	CodeCode Available	5
Mostly Exploration-Free Algorithms for Contextual Bandits	Apr 28, 2017	DiversityMulti-Armed Bandits	CodeCode Available	5
Addressing Missing Data Issue for Diffusion-based Recommendation	May 18, 2025	DenoisingThompson Sampling	CodeCode Available	5
Multi-armed bandits for resource efficient, online optimization of language model pre-training: the use case of dynamic masking	Mar 24, 2022	Bayesian OptimizationDecision Making	CodeCode Available	5
Distributed Thompson sampling under constrained communication	Oct 21, 2024	Bayesian OptimizationThompson Sampling	CodeCode Available	5
Evolutionary Multi-Armed Bandits with Genetic Thompson Sampling	Apr 26, 2022	Decision MakingEvolutionary Algorithms	CodeCode Available	5
RoME: A Robust Mixed-Effects Bandit Algorithm for Optimizing Mobile Health Interventions	Dec 11, 2023	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	5
Adaptive Thompson Sampling Stacks for Memory Bounded Open-Loop Planning	Jul 11, 2019	Thompson Sampling	CodeCode Available	5
Constructing Adversarial Examples for Vertical Federated Learning: Optimal Client Corruption through Multi-Armed Bandit	May 7, 2024	Federated LearningThompson Sampling	CodeCode Available	5
Bandit-Based Prompt Design Strategy Selection Improves Prompt Optimizers	Mar 3, 2025	Prompt EngineeringThompson Sampling	CodeCode Available	5
Cascading Bandits for Large-Scale Recommendation Problems	Mar 17, 2016	Multi-Armed BanditsRecommendation Systems	CodeCode Available	5
Cost-Efficient Online Decision Making: A Combinatorial Multi-Armed Bandit Approach	Aug 21, 2023	Decision MakingMulti-Armed Bandits	CodeCode Available	5
Deep Bayesian Bandits Showdown: An Empirical Comparison of Bayesian Deep Networks for Thompson Sampling	Feb 26, 2018	Decision MakingDeep Reinforcement Learning	CodeCode Available	5
Bayesian Algorithms for Decentralized Stochastic Bandits	Oct 20, 2020	Thompson Sampling	CodeCode Available	5
Causal Bandits for Linear Structural Equation Models	Aug 26, 2022	Thompson Sampling	CodeCode Available	5
Constructing Adversarial Examples for Vertical Federated Learning: Optimal Client Corruption through Multi-Armed Bandit	Aug 8, 2024	Federated LearningThompson Sampling	CodeCode Available	5
Bayesian bandits: balancing the exploration-exploitation tradeoff via double sampling	Sep 10, 2017	Reinforcement LearningThompson Sampling	CodeCode Available	5

Show:10 25 50

← PrevPage 3 of 27Next →

No leaderboard results yet.