Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 601–625 of 655 papers

Title	Date	Tasks	Status
Accelerating Approximate Thompson Sampling with Underdamped Langevin Monte Carlo	Jan 22, 2024	Thompson Sampling	CodeCode Available
Thompson Sampling for Bandit Learning in Matching Markets	Apr 26, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available
Differentially Private Online Bayesian Estimation With Adaptive Truncation	Jan 19, 2023	Privacy PreservingSensitivity	CodeCode Available
Multi-Agent Active Search using Realistic Depth-Aware Noise Model	Nov 9, 2020	object-detectionObject Detection	CodeCode Available
Optimal Regret Analysis of Thompson Sampling in Stochastic Multi-armed Bandit Problem with Multiple Plays	Jun 2, 2015	Thompson Sampling	CodeCode Available
Multi-armed bandits for resource efficient, online optimization of language model pre-training: the use case of dynamic masking	Mar 24, 2022	Bayesian OptimizationDecision Making	CodeCode Available
Optimal Regret Is Achievable with Bounded Approximate Inference Error: An Enhanced Bayesian Upper Confidence Bound Framework	Jan 31, 2022	Bayesian InferenceMulti-Armed Bandits	CodeCode Available
Improving Portfolio Optimization Results with Bandit Networks	Oct 5, 2024	Portfolio OptimizationRecommendation Systems	CodeCode Available
Thompson Sampling for Robust Transfer in Multi-Task Bandits	Jun 17, 2022	Multi-Task LearningThompson Sampling	CodeCode Available
Sequential Monte Carlo Bandits	Aug 8, 2018	Decision MakingSequential Decision Making	CodeCode Available
Distributed Thompson sampling under constrained communication	Oct 21, 2024	Bayesian OptimizationThompson Sampling	CodeCode Available
Thompson Sampling via Local Uncertainty	Oct 30, 2019	Decision MakingMulti-Armed Bandits	CodeCode Available
Myopic Bayesian Design of Experiments via Posterior Sampling and Probabilistic Programming	May 25, 2018	Bayesian InferenceMulti-Armed Bandits	CodeCode Available
ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages	Jun 2, 2023	Bayesian Inferencecontinuous-control	CodeCode Available
Two-sided Competing Matching Recommendation Markets With Quota and Complementary Preferences Constraints	Jan 24, 2023	Thompson Sampling	CodeCode Available
Double Thompson Sampling for Dueling Bandits	Apr 25, 2016	Thompson Sampling	CodeCode Available
Incentivizing Exploration In Reinforcement Learning With Deep Predictive Models	Jul 3, 2015	Atari Gamesreinforcement-learning	CodeCode Available
Randomized Exploration for Non-Stationary Stochastic Linear Bandits	Dec 11, 2019	Computational EfficiencyThompson Sampling	CodeCode Available
Neural Bandits for Data Mining: Searching for Dangerous Polypharmacy	Dec 10, 2022	Thompson Sampling	CodeCode Available
Optimizing Conditional Value-At-Risk of Black-Box Functions	Dec 1, 2021	Bayesian OptimizationThompson Sampling	CodeCode Available
Optimizing Pessimism in Dynamic Treatment Regimes: A Bayesian Learning Approach	Oct 26, 2022	Thompson SamplingVariational Inference	CodeCode Available
Asynchronous Parallel Bayesian Optimisation via Thompson Sampling	May 25, 2017	Bayesian OptimisationThompson Sampling	CodeCode Available
Dynamic Assortment Selection and Pricing with Censored Preference Feedback	Apr 3, 2025	Thompson Sampling	CodeCode Available
Addressing Missing Data Issue for Diffusion-based Recommendation	May 18, 2025	DenoisingThompson Sampling	CodeCode Available
Asynchronous ε-Greedy Bayesian Optimisation	Oct 15, 2020	Bayesian OptimisationThompson Sampling	CodeCode Available

Show:10 25 50

← PrevPage 25 of 27Next →

No leaderboard results yet.