Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 601–650 of 655 papers

Title	Date	Tasks	Status
Accelerating Approximate Thompson Sampling with Underdamped Langevin Monte Carlo	Jan 22, 2024	Thompson Sampling	CodeCode Available
Thompson Sampling for Bandit Learning in Matching Markets	Apr 26, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available
Differentially Private Online Bayesian Estimation With Adaptive Truncation	Jan 19, 2023	Privacy PreservingSensitivity	CodeCode Available
Multi-Agent Active Search using Realistic Depth-Aware Noise Model	Nov 9, 2020	object-detectionObject Detection	CodeCode Available
Optimal Regret Analysis of Thompson Sampling in Stochastic Multi-armed Bandit Problem with Multiple Plays	Jun 2, 2015	Thompson Sampling	CodeCode Available
Multi-armed bandits for resource efficient, online optimization of language model pre-training: the use case of dynamic masking	Mar 24, 2022	Bayesian OptimizationDecision Making	CodeCode Available
Optimal Regret Is Achievable with Bounded Approximate Inference Error: An Enhanced Bayesian Upper Confidence Bound Framework	Jan 31, 2022	Bayesian InferenceMulti-Armed Bandits	CodeCode Available
Improving Portfolio Optimization Results with Bandit Networks	Oct 5, 2024	Portfolio OptimizationRecommendation Systems	CodeCode Available
Thompson Sampling for Robust Transfer in Multi-Task Bandits	Jun 17, 2022	Multi-Task LearningThompson Sampling	CodeCode Available
Sequential Monte Carlo Bandits	Aug 8, 2018	Decision MakingSequential Decision Making	CodeCode Available
Distributed Thompson sampling under constrained communication	Oct 21, 2024	Bayesian OptimizationThompson Sampling	CodeCode Available
Thompson Sampling via Local Uncertainty	Oct 30, 2019	Decision MakingMulti-Armed Bandits	CodeCode Available
Myopic Bayesian Design of Experiments via Posterior Sampling and Probabilistic Programming	May 25, 2018	Bayesian InferenceMulti-Armed Bandits	CodeCode Available
ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages	Jun 2, 2023	Bayesian Inferencecontinuous-control	CodeCode Available
Two-sided Competing Matching Recommendation Markets With Quota and Complementary Preferences Constraints	Jan 24, 2023	Thompson Sampling	CodeCode Available
Double Thompson Sampling for Dueling Bandits	Apr 25, 2016	Thompson Sampling	CodeCode Available
Incentivizing Exploration In Reinforcement Learning With Deep Predictive Models	Jul 3, 2015	Atari Gamesreinforcement-learning	CodeCode Available
Randomized Exploration for Non-Stationary Stochastic Linear Bandits	Dec 11, 2019	Computational EfficiencyThompson Sampling	CodeCode Available
Neural Bandits for Data Mining: Searching for Dangerous Polypharmacy	Dec 10, 2022	Thompson Sampling	CodeCode Available
Optimizing Conditional Value-At-Risk of Black-Box Functions	Dec 1, 2021	Bayesian OptimizationThompson Sampling	CodeCode Available
Optimizing Pessimism in Dynamic Treatment Regimes: A Bayesian Learning Approach	Oct 26, 2022	Thompson SamplingVariational Inference	CodeCode Available
Asynchronous Parallel Bayesian Optimisation via Thompson Sampling	May 25, 2017	Bayesian OptimisationThompson Sampling	CodeCode Available
Dynamic Assortment Selection and Pricing with Censored Preference Feedback	Apr 3, 2025	Thompson Sampling	CodeCode Available
Addressing Missing Data Issue for Diffusion-based Recommendation	May 18, 2025	DenoisingThompson Sampling	CodeCode Available
Asynchronous ε-Greedy Bayesian Optimisation	Oct 15, 2020	Bayesian OptimisationThompson Sampling	CodeCode Available
Bayesian Non-stationary Linear Bandits for Large-Scale Recommender Systems	Feb 7, 2022	Decision MakingDimensionality Reduction	CodeCode Available
Bayesian bandits: balancing the exploration-exploitation tradeoff via double sampling	Sep 10, 2017	Reinforcement LearningThompson Sampling	CodeCode Available
Information-Directed Exploration for Deep Reinforcement Learning	Dec 18, 2018	Atari GamesDeep Reinforcement Learning	CodeCode Available
VITS : Variational Inference Thompson Sampling for contextual bandits	Jul 19, 2023	Multi-Armed BanditsThompson Sampling	CodeCode Available
Representative Action Selection for Large Action-Space Meta-Bandits	May 23, 2025	Thompson Sampling	CodeCode Available
Nonparametric Gaussian Mixture Models for the Multi-Armed Bandit	Aug 8, 2018	Density EstimationMulti-Armed Bandits	CodeCode Available
Thompson Sampling For Combinatorial Bandits: Polynomial Regret and Mismatched Sampling Paradox	Oct 7, 2024	Thompson Sampling	CodeCode Available
Efficient Exploration through Bayesian Deep Q-Networks	Feb 13, 2018	Atari GamesEfficient Exploration	CodeCode Available
Show Me the Whole World: Towards Entire Item Space Exploration for Interactive Personalized Recommendations	Oct 19, 2021	Decision MakingModel Selection	CodeCode Available
Thompson Sampling for Linearly Constrained Bandits	Apr 20, 2020	Multi-Armed BanditsThompson Sampling	CodeCode Available
Simple Modification of the Upper Confidence Bound Algorithm by Generalized Weighted Averages	Aug 28, 2023	Decision MakingDecision Making Under Uncertainty	CodeCode Available
Tsetlin Machine for Solving Contextual Bandit Problems	Feb 4, 2022	Thompson Sampling	CodeCode Available
Kullback-Leibler Maillard Sampling for Multi-armed Bandits with Bounded Rewards	Apr 28, 2023	Multi-Armed BanditsThompson Sampling	CodeCode Available
Bandit Learning with Implicit Feedback	Dec 1, 2018	Bayesian InferenceThompson Sampling	CodeCode Available
Automated Creative Optimization for E-Commerce Advertising	Feb 28, 2021	AutoMLClick-Through Rate Prediction	CodeCode Available
Thompson Sampling with Information Relaxation Penalties	Feb 12, 2019	Thompson Sampling	CodeCode Available
Efficient Optimal Selection for Composited Advertising Creatives with Tree Structure	Mar 2, 2021	Efficient ExplorationThompson Sampling	CodeCode Available
Odds-Ratio Thompson Sampling to Control for Time-Varying Effect	Mar 4, 2020	Thompson Sampling	CodeCode Available
Old Dog Learns New Tricks: Randomized UCB for Bandit Problems	Oct 11, 2019	Thompson Sampling	CodeCode Available
Thompson Sampling for Multinomial Logit Contextual Bandits	Dec 1, 2019	Multi-Armed BanditsThompson Sampling	CodeCode Available
Trajectory-oriented optimization of stochastic epidemiological models	May 6, 2023	Thompson Sampling	CodeCode Available
On Bits and Bandits: Quantifying the Regret-Information Trade-off	May 26, 2024	Decision MakingQuestion Answering	CodeCode Available
Learning to Play Imperfect-Information Games by Imitating an Oracle Planner	Dec 22, 2020	Thompson Sampling	CodeCode Available
Process-constrained batch Bayesian approaches for yield optimization in multi-reactor systems	Aug 5, 2024	Bayesian OptimizationThompson Sampling	CodeCode Available
ESCADA: Efficient Safety and Context Aware Dose Allocation for Precision Medicine	Nov 26, 2021	Thompson Sampling	CodeCode Available

Show:10 25 50

← PrevPage 13 of 14Next →

No leaderboard results yet.