Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 655 papers

Title	Date	Tasks	Status
Diffusion Models Meet Contextual Bandits with Large Action Spaces	Feb 15, 2024	Efficient ExplorationMulti-Armed Bandits	—Unverified
DISCO: An End-to-End Bandit Framework for Personalised Discount Allocation	Jun 10, 2024	Thompson Sampling	—Unverified
Discounted Thompson Sampling for Non-Stationary Bandit Problems	May 18, 2023	Thompson Sampling	—Unverified
Distilled Thompson Sampling: Practical and Efficient Thompson Sampling via Imitation Learning	Nov 29, 2020	Action GenerationDecision Making	—Unverified
Distributed Thompson Sampling	Dec 3, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Adaptive Combinatorial Allocation	Nov 4, 2020	Thompson Sampling	—Unverified
Diversified Sampling for Batched Bayesian Optimization with Determinantal Point Processes	Oct 22, 2021	Bayesian OptimizationDiversity	—Unverified
Double Doubly Robust Thompson Sampling for Generalized Linear Contextual Bandits	Sep 15, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Double-Linear Thompson Sampling for Context-Attentive Bandits	Oct 15, 2020	Medical DiagnosisThompson Sampling	—Unverified
AutoSeM: Automatic Task Selection and Mixing in Multi-Task Learning	Apr 8, 2019	Bayesian OptimizationInductive Bias	—Unverified
Bag of Policies for Distributional Deep Exploration	Aug 3, 2023	Atari GamesEfficient Exploration	—Unverified
Double Thompson Sampling in Finite stochastic Games	Feb 21, 2022	Thompson Sampling	—Unverified
Online Multi-Armed Bandits with Adaptive Inference	Feb 25, 2021	Causal InferenceDecision Making	—Unverified
Doubly robust Thompson sampling for linear payoffs	Feb 1, 2021	Thompson Sampling	—Unverified
Doubly Robust Thompson Sampling with Linear Payoffs	Dec 1, 2021	Thompson Sampling	—Unverified
DRL-based Joint Resource Scheduling of eMBB and URLLC in O-RAN	Jul 16, 2024	Decision MakingDeep Reinforcement Learning	—Unverified
Dual-Directed Algorithm Design for Efficient Pure Exploration	Oct 30, 2023	Thompson Sampling	—Unverified
Bandit Convex Optimization: sqrtT Regret in One Dimension	Feb 23, 2015	Thompson Sampling	—Unverified
Dynamic collaborative filtering Thompson Sampling for cross-domain advertisements recommendation	Aug 25, 2022	Collaborative FilteringRecommendation Systems	—Unverified
Dynamic Decision-Making under Model Misspecification	May 20, 2025	Decision Makingmodel	—Unverified
Bayesian Quantile and Expectile Optimisation	Jan 12, 2020	Bayesian OptimisationGaussian Processes	—Unverified
An Information-Theoretic Analysis of Thompson Sampling for Logistic Bandits	Dec 3, 2024	Thompson Sampling	—Unverified
Effects of Model Misspecification on Bayesian Bandits: Case Studies in UX Optimization	Oct 7, 2020	Thompson Sampling	—Unverified
Efficient and Adaptive Posterior Sampling Algorithms for Bandits	May 2, 2024	Thompson Sampling	—Unverified
Efficient Benchmarking of NLP APIs using Multi-armed Bandits	Apr 1, 2017	BenchmarkingMulti-Armed Bandits	—Unverified
Efficient Exploration for LLMs	Feb 1, 2024	Efficient ExplorationThompson Sampling	—Unverified
Efficient exploration of zero-sum stochastic games	Feb 24, 2020	Efficient ExplorationThompson Sampling	—Unverified
Bandits Under The Influence (Extended Version)	Sep 21, 2020	Recommendation SystemsThompson Sampling	—Unverified
Efficient exploration with Double Uncertain Value Networks	Nov 29, 2017	Efficient ExplorationReinforcement Learning	—Unverified
Efficient Inference Without Trading-off Regret in Bandits: An Allocation Probability Test for Thompson Sampling	Oct 30, 2021	Thompson Sampling	—Unverified
Efficient kernelized bandit algorithms via exploration distributions	Jun 11, 2025	Thompson Sampling	—Unverified
Efficient Learning in Large-Scale Combinatorial Semi-Bandits	Jun 28, 2014	Thompson Sampling	—Unverified
Adaptively Optimize Content Recommendation Using Multi Armed Bandit Algorithms in E-commerce	Jul 30, 2021	Thompson Sampling	—Unverified
Efficient Model-Based Reinforcement Learning Through Optimistic Thompson Sampling	Oct 7, 2024	continuous-controlContinuous Control	—Unverified
Efficient Multivariate Bandit Algorithm with Path Planning	Sep 6, 2019	Heuristic SearchThompson Sampling	—Unverified
Efficient Online Learning for Cognitive Radar-Cellular Coexistence via Contextual Thompson Sampling	Aug 24, 2020	Deep Reinforcement LearningThompson Sampling	—Unverified
Batched Thompson Sampling for Multi-Armed Bandits	Aug 15, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
Efficient Thompson Sampling for Online Matrix-Factorization Recommendation	Dec 1, 2015	Collaborative FilteringRecommendation Systems	—Unverified
Efficient-UCBV: An Almost Optimal Algorithm using Variance Estimates	Nov 9, 2017	Thompson Sampling	—Unverified
Eluder Dimension and the Sample Complexity of Optimistic Exploration	Dec 1, 2013	Thompson Sampling	—Unverified
ε-Neural Thompson Sampling of Deep Brain Stimulation for Parkinson Disease Treatment	Mar 11, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Ensemble Sampling	May 20, 2017	Thompson Sampling	—Unverified
Epinet for Content Cold Start	Nov 20, 2024	Recommendation SystemsThompson Sampling	—Unverified
Epsilon-Greedy Thompson Sampling to Bayesian Optimization	Mar 1, 2024	Bayesian OptimizationCantilever Beam	—Unverified
Bayesian Best-Arm Identification for Selecting Influenza Mitigation Strategies	Nov 16, 2017	Decision MakingThompson Sampling	—Unverified
Estimating prediction error for complex samples	Nov 13, 2017	PredictionSurvey	—Unverified
A Copula approach for hyperparameter transfer learning	Sep 25, 2019	Bayesian OptimizationThompson Sampling	—Unverified
Etat de l'art sur l'application des bandits multi-bras	Jan 4, 2021	Thompson Sampling	—Unverified
EVaDE : Event-Based Variational Thompson Sampling for Model-Based Reinforcement Learning	Jan 16, 2025	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Bayesian Optimization with LLM-Based Acquisition Functions for Natural Language Preference Elicitation	May 2, 2024	Bayesian OptimizationConversational Recommendation	—Unverified

Show:10 25 50

← PrevPage 5 of 14Next →

No leaderboard results yet.