Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 526–550 of 655 papers

Title	Date	Tasks	Status
Remote Contextual Bandits	Feb 10, 2022	MarketingMulti-Armed Bandits	—Unverified
Residual Bootstrap Exploration for Bandit Algorithms	Feb 19, 2020	Computational EfficiencyMulti-Armed Bandits	—Unverified
Revised Progressive-Hedging-Algorithm Based Two-layer Solution Scheme for Bayesian Reinforcement Learning	Jun 21, 2019	Reinforcement LearningReinforcement Learning (RL)	—Unverified
Reward Biased Maximum Likelihood Estimation for Reinforcement Learning	Nov 16, 2020	Multi-Armed Banditsreinforcement-learning	—Unverified
Risk and optimal policies in bandit experiments	Dec 13, 2021	Dimensionality ReductionThompson Sampling	—Unverified
Risk-averse Contextual Multi-armed Bandit Problem with Linear Payoffs	Jun 24, 2022	Thompson Sampling	—Unverified
Risk-Constrained Thompson Sampling for CVaR Bandits	Nov 16, 2020	Decision MakingThompson Sampling	—Unverified
Robust Dynamic Assortment Optimization in the Presence of Outlier Customers	Oct 9, 2019	Assortment OptimizationThompson Sampling	—Unverified
Robust Policy Switching for Antifragile Reinforcement Learning for UAV Deconfliction in Adversarial Environments	Jun 26, 2025	Reinforcement Learning (RL)Thompson Sampling	—Unverified
Robust Thompson Sampling Algorithms Against Reward Poisoning Attacks	Oct 25, 2024	Decision MakingSequential Decision Making	—Unverified
Safe Linear Leveling Bandits	Dec 13, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
Safe Linear Thompson Sampling with Side Information	Nov 6, 2019	Thompson Sampling	—Unverified
Sample-based Dynamic Hierarchical Transformer with Layer and Head Flexibility via Contextual Bandit	Dec 5, 2023	Thompson Sampling	—Unverified
The Price of Incentivizing Exploration: A Characterization via Thompson Sampling and Sample Complexity	Feb 3, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Sampling Acquisition Functions for Batch Bayesian Optimization	Mar 22, 2019	Bayesian OptimizationThompson Sampling	—Unverified
Satisficing in Time-Sensitive Bandit Learning	Mar 7, 2018	Thompson Sampling	—Unverified
Scalable and Interpretable Contextual Bandits: A Literature Review and Retail Offer Prototype	May 22, 2025	Feature EngineeringLarge Language Model	—Unverified
Scalable Generalized Linear Bandits: Online Computation and Hashing	Jun 1, 2017	Thompson Sampling	—Unverified
Scalable Neural Contextual Bandit for Recommender Systems	Jun 26, 2023	Recommendation SystemsThompson Sampling	—Unverified
Scalable regret for learning to control network-coupled subsystems with unknown dynamics	Aug 18, 2021	Thompson Sampling	—Unverified
Scalable Thompson Sampling using Sparse Gaussian Process Models	Jun 9, 2020	Thompson Sampling	—Unverified
Scalable Thompson Sampling via Optimal Transport	Feb 19, 2019	Decision MakingSequential Decision Making	—Unverified
Scaling Multi-Armed Bandit Algorithms	Jul 25, 2019	Multi-Armed BanditsSequential Decision Making	—Unverified
Screening for an Infectious Disease as a Problem in Stochastic Control	Nov 1, 2020	Thompson Sampling	—Unverified
Semi-Parametric Contextual Bandits with Graph-Laplacian Regularization	May 17, 2022	Multi-Armed BanditsThompson Sampling	—Unverified

Show:10 25 50

← PrevPage 22 of 27Next →

No leaderboard results yet.