Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–450 of 655 papers

Title	Date	Tasks	Status
Robust Dynamic Assortment Optimization in the Presence of Outlier Customers	Oct 9, 2019	Assortment OptimizationThompson Sampling	—Unverified
Robust Policy Switching for Antifragile Reinforcement Learning for UAV Deconfliction in Adversarial Environments	Jun 26, 2025	Reinforcement Learning (RL)Thompson Sampling	—Unverified
Robust Thompson Sampling Algorithms Against Reward Poisoning Attacks	Oct 25, 2024	Decision MakingSequential Decision Making	—Unverified
Safe Linear Leveling Bandits	Dec 13, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
Safe Linear Thompson Sampling with Side Information	Nov 6, 2019	Thompson Sampling	—Unverified
Sample-based Dynamic Hierarchical Transformer with Layer and Head Flexibility via Contextual Bandit	Dec 5, 2023	Thompson Sampling	—Unverified
The Price of Incentivizing Exploration: A Characterization via Thompson Sampling and Sample Complexity	Feb 3, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Sampling Acquisition Functions for Batch Bayesian Optimization	Mar 22, 2019	Bayesian OptimizationThompson Sampling	—Unverified
Satisficing in Time-Sensitive Bandit Learning	Mar 7, 2018	Thompson Sampling	—Unverified
Scalable and Interpretable Contextual Bandits: A Literature Review and Retail Offer Prototype	May 22, 2025	Feature EngineeringLarge Language Model	—Unverified
Scalable Generalized Linear Bandits: Online Computation and Hashing	Jun 1, 2017	Thompson Sampling	—Unverified
Scalable Neural Contextual Bandit for Recommender Systems	Jun 26, 2023	Recommendation SystemsThompson Sampling	—Unverified
Scalable regret for learning to control network-coupled subsystems with unknown dynamics	Aug 18, 2021	Thompson Sampling	—Unverified
Scalable Thompson Sampling using Sparse Gaussian Process Models	Jun 9, 2020	Thompson Sampling	—Unverified
Scalable Thompson Sampling via Optimal Transport	Feb 19, 2019	Decision MakingSequential Decision Making	—Unverified
Scaling Multi-Armed Bandit Algorithms	Jul 25, 2019	Multi-Armed BanditsSequential Decision Making	—Unverified
Screening for an Infectious Disease as a Problem in Stochastic Control	Nov 1, 2020	Thompson Sampling	—Unverified
Semi-Parametric Contextual Bandits with Graph-Laplacian Regularization	May 17, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Sequential Best-Arm Identification with Application to Brain-Computer Interface	May 17, 2023	Brain Computer InterfaceEEG	—Unverified
Sequential Matrix Completion	Oct 23, 2017	Collaborative FilteringMatrix Completion	—Unverified
Sequential Test for the Lowest Mean: From Thompson to Murphy Sampling	Jun 4, 2018	Reinforcement LearningReinforcement Learning (RL)	—Unverified
Sharp Deviations Bounds for Dirichlet Weighted Sums with Application to analysis of Bayesian algorithms	Apr 6, 2023	Multi-Armed BanditsThompson Sampling	—Unverified
Simple Bayesian Algorithms for Best Arm Identification	Feb 26, 2016	Thompson Sampling	—Unverified
Simplifying Bayesian Optimization Via In-Context Direct Optimum Sampling	May 29, 2025	Bayesian OptimizationThompson Sampling	—Unverified
Sliding-Window Thompson Sampling for Non-Stationary Settings	Sep 8, 2024	Decision MakingSequential Decision Making	—Unverified
Smart Routing with Precise Link Estimation: DSEE-Based Anypath Routing for Reliable Wireless Networking	May 16, 2024	Thompson Sampling	—Unverified
Solving Bernoulli Rank-One Bandits with Unimodal Thompson Sampling	Dec 6, 2019	Thompson Sampling	—Unverified
Sparse Nonparametric Contextual Bandits	Mar 20, 2025	Multi-Armed BanditsThompson Sampling	—Unverified
Sparse Spectrum Gaussian Process for Bayesian Optimization	Jun 21, 2019	Bayesian OptimisationBayesian Optimization	—Unverified
Speculative Decoding via Early-exiting for Faster LLM Inference with Thompson Sampling Control Mechanism	Jun 6, 2024	Thompson Sampling	—Unverified
SPRT-based Efficient Best Arm Identification in Stochastic Bandits	Jul 22, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Stable Thompson Sampling: Valid Inference via Variance Inflation	May 29, 2025	Decision MakingThompson Sampling	—Unverified
Stage-wise Conservative Linear Bandits	Sep 30, 2020	FormThompson Sampling	—Unverified
Statistical Efficiency of Thompson Sampling for Combinatorial Semi-Bandits	Jun 11, 2020	Thompson Sampling	—Unverified
Stochastically Constrained Best Arm Identification with Thompson Sampling	Jan 7, 2025	Thompson Sampling	—Unverified
Stochastic Neural Network with Kronecker Flow	Jun 10, 2019	Multi-Armed BanditsThompson Sampling	—Unverified
Streaming kernel regression with provably adaptive mean, variance, and regularization	Aug 2, 2017	regressionThompson Sampling	—Unverified
Surrogate modeling for Bayesian optimization beyond a single Gaussian process	May 27, 2022	Bayesian OptimizationDrug Discovery	—Unverified
Synthetically Controlled Bandits	Feb 14, 2022	Thompson Sampling	—Unverified
Taming Non-stationary Bandits: A Bayesian Approach	Jul 31, 2017	Thompson Sampling	—Unverified
Task Selection and Assignment for Multi-modal Multi-task Dialogue Act Classification with Non-stationary Multi-armed Bandits	Sep 18, 2023	Dialogue Act ClassificationMulti-Armed Bandits	—Unverified
Cramming Contextual Bandits for On-policy Statistical Evaluation	Mar 11, 2024	Multi-Armed BanditsOff-policy evaluation	—Unverified
The Effect of Communication on Noncooperative Multiplayer Multi-Armed Bandit Problems	Nov 5, 2017	Thompson Sampling	—Unverified
The End of Optimism? An Asymptotic Analysis of Finite-Armed Linear Bandits	Oct 14, 2016	reinforcement-learningReinforcement Learning	—Unverified
The Hardness Analysis of Thompson Sampling for Combinatorial Semi-bandits with Greedy Oracle	Nov 8, 2021	Combinatorial OptimizationOpen-Ended Question Answering	—Unverified
The Intrinsic Robustness of Stochastic Bandits to Strategic Manipulation	Jun 4, 2019	Recommendation SystemsThompson Sampling	—Unverified
The Elliptical Potential Lemma for General Distributions with an Application to Linear Thompson Sampling	Feb 16, 2021	Decision MakingLEMMA	—Unverified
The Sliding Regret in Stochastic Bandits: Discriminating Index and Randomized Policies	Nov 30, 2023	Thompson Sampling	—Unverified
The Typical Behavior of Bandit Algorithms	Oct 11, 2022	Thompson Sampling	—Unverified
Thompson Exploration with Best Challenger Rule in Best Arm Identification	Oct 1, 2023	Thompson Sampling	—Unverified

Show:10 25 50

← PrevPage 9 of 14Next →

No leaderboard results yet.