Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 626–650 of 655 papers

Title	Date	Tasks	Status
Bayesian Non-stationary Linear Bandits for Large-Scale Recommender Systems	Feb 7, 2022	Decision MakingDimensionality Reduction	CodeCode Available
Bayesian bandits: balancing the exploration-exploitation tradeoff via double sampling	Sep 10, 2017	Reinforcement LearningThompson Sampling	CodeCode Available
Information-Directed Exploration for Deep Reinforcement Learning	Dec 18, 2018	Atari GamesDeep Reinforcement Learning	CodeCode Available
VITS : Variational Inference Thompson Sampling for contextual bandits	Jul 19, 2023	Multi-Armed BanditsThompson Sampling	CodeCode Available
Representative Action Selection for Large Action-Space Meta-Bandits	May 23, 2025	Thompson Sampling	CodeCode Available
Nonparametric Gaussian Mixture Models for the Multi-Armed Bandit	Aug 8, 2018	Density EstimationMulti-Armed Bandits	CodeCode Available
Thompson Sampling For Combinatorial Bandits: Polynomial Regret and Mismatched Sampling Paradox	Oct 7, 2024	Thompson Sampling	CodeCode Available
Efficient Exploration through Bayesian Deep Q-Networks	Feb 13, 2018	Atari GamesEfficient Exploration	CodeCode Available
Show Me the Whole World: Towards Entire Item Space Exploration for Interactive Personalized Recommendations	Oct 19, 2021	Decision MakingModel Selection	CodeCode Available
Thompson Sampling for Linearly Constrained Bandits	Apr 20, 2020	Multi-Armed BanditsThompson Sampling	CodeCode Available
Simple Modification of the Upper Confidence Bound Algorithm by Generalized Weighted Averages	Aug 28, 2023	Decision MakingDecision Making Under Uncertainty	CodeCode Available
Tsetlin Machine for Solving Contextual Bandit Problems	Feb 4, 2022	Thompson Sampling	CodeCode Available
Kullback-Leibler Maillard Sampling for Multi-armed Bandits with Bounded Rewards	Apr 28, 2023	Multi-Armed BanditsThompson Sampling	CodeCode Available
Bandit Learning with Implicit Feedback	Dec 1, 2018	Bayesian InferenceThompson Sampling	CodeCode Available
Automated Creative Optimization for E-Commerce Advertising	Feb 28, 2021	AutoMLClick-Through Rate Prediction	CodeCode Available
Thompson Sampling with Information Relaxation Penalties	Feb 12, 2019	Thompson Sampling	CodeCode Available
Efficient Optimal Selection for Composited Advertising Creatives with Tree Structure	Mar 2, 2021	Efficient ExplorationThompson Sampling	CodeCode Available
Odds-Ratio Thompson Sampling to Control for Time-Varying Effect	Mar 4, 2020	Thompson Sampling	CodeCode Available
Old Dog Learns New Tricks: Randomized UCB for Bandit Problems	Oct 11, 2019	Thompson Sampling	CodeCode Available
Thompson Sampling for Multinomial Logit Contextual Bandits	Dec 1, 2019	Multi-Armed BanditsThompson Sampling	CodeCode Available
Trajectory-oriented optimization of stochastic epidemiological models	May 6, 2023	Thompson Sampling	CodeCode Available
On Bits and Bandits: Quantifying the Regret-Information Trade-off	May 26, 2024	Decision MakingQuestion Answering	CodeCode Available
Learning to Play Imperfect-Information Games by Imitating an Oracle Planner	Dec 22, 2020	Thompson Sampling	CodeCode Available
Process-constrained batch Bayesian approaches for yield optimization in multi-reactor systems	Aug 5, 2024	Bayesian OptimizationThompson Sampling	CodeCode Available
ESCADA: Efficient Safety and Context Aware Dose Allocation for Precision Medicine	Nov 26, 2021	Thompson Sampling	CodeCode Available

Show:10 25 50

← PrevPage 26 of 27Next →

No leaderboard results yet.