Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–450 of 655 papers

Title	Date	Tasks	Status
KLUCB Approach to Copeland Bandits	Feb 7, 2019	Information RetrievalReinforcement Learning	—Unverified
Kolmogorov-Smirnov Test-Based Actively-Adaptive Thompson Sampling for Non-Stationary Bandits	May 30, 2021	Edge-computingPortfolio Optimization	—Unverified
Langevin Thompson Sampling with Logarithmic Communication: Bandits and Reinforcement Learning	Jun 15, 2023	Decision MakingMulti-Armed Bandits	—Unverified
Latent Bandits Revisited	Jun 15, 2020	Recommendation SystemsThompson Sampling	—Unverified
Learning by Repetition: Stochastic Multi-armed Bandits under Priming Effect	Jun 18, 2020	Decision MakingMulti-Armed Bandits	—Unverified
Sample Efficient Learning of Factored Embeddings of Tensor Fields	Sep 1, 2022	Recommendation SystemsThompson Sampling	—Unverified
Learning How to Infer Partial MDPs for In-Context Adaptation and Exploration	Feb 8, 2023	Bayesian InferenceThompson Sampling	—Unverified
Learning to Optimize Via Posterior Sampling	Jan 11, 2013	Thompson Sampling	—Unverified
Learning to Price with Reference Effects	Aug 29, 2017	Reinforcement LearningThompson Sampling	—Unverified
Learning to Rank in the Position Based Model with Bandit Feedback	Apr 27, 2020	Learning-To-RankMulti-Armed Bandits	—Unverified
Learning Unknown Markov Decision Processes: A Thompson Sampling Approach	Sep 14, 2017	Reinforcement LearningThompson Sampling	—Unverified
Lenient Regret for Multi-Armed Bandits	Aug 10, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Leveraging Demonstrations to Improve Online Learning: Quality Matters	Feb 7, 2023	Thompson Sampling	—Unverified
Leveraging Offline Data from Similar Systems for Online Linear Quadratic Control	May 14, 2025	Thompson Sampling	—Unverified
Lifting the Information Ratio: An Information-Theoretic Analysis of Thompson Sampling for Contextual Bandits	May 27, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Linear Bandit algorithms using the Bootstrap	May 4, 2016	Thompson Sampling	—Unverified
Linear Thompson Sampling Revisited	Nov 20, 2016	Thompson Sampling	—Unverified
Little Exploration is All You Need	Oct 26, 2023	AllThompson Sampling	—Unverified
Maillard Sampling: Boltzmann Exploration Done Optimally	Nov 5, 2021	counterfactualThompson Sampling	—Unverified
Making RL with Preference-based Feedback Efficient via Randomization	Oct 23, 2023	Active LearningThompson Sampling	—Unverified
Making Sense of Reinforcement Learning and Probabilistic Inference	Jan 3, 2020	reinforcement-learningReinforcement Learning	—Unverified
Markov Decision Process modeled with Bandits for Sequential Decision Making in Linear-flow	Jul 1, 2021	Decision MakingMarketing	—Unverified
Optimization-Driven Adaptive Experimentation	Aug 8, 2024	GPUThompson Sampling	—Unverified
Memory Sequence Length of Data Sampling Impacts the Adaptation of Meta-Reinforcement Learning Agents	Jun 18, 2024	continuous-controlContinuous Control	—Unverified
Metadata-based Multi-Task Bandits with Bayesian Hierarchical Models	Aug 13, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
Meta Dynamic Pricing: Transfer Learning Across Experiments	Feb 28, 2019	Thompson SamplingTransfer Learning	—Unverified
Meta Learning in Bandits within Shared Affine Subspaces	Mar 31, 2024	Meta-LearningThompson Sampling	—Unverified
Metalearning Linear Bandits by Prior Update	Jul 12, 2021	Decision MakingSequential Decision Making	—Unverified
Meta Learning of Interface Conditions for Multi-Domain Physics-Informed Neural Networks	Oct 23, 2022	Meta-LearningThompson Sampling	—Unverified
Meta-Reinforcement Learning With Informed Policy Regularization	Jan 1, 2021	Meta Reinforcement Learningreinforcement-learning	—Unverified
Meta-Thompson Sampling	Feb 11, 2021	Efficient ExplorationMeta-Learning	—Unverified
Minimal Exploration in Structured Stochastic Bandits	Nov 1, 2017	Thompson Sampling	—Unverified
TS-RSR: A provably efficient approach for batch Bayesian Optimization	Mar 7, 2024	Bayesian OptimizationThompson Sampling	—Unverified
Mixed-Variable Bayesian Optimization	Jul 2, 2019	Bayesian OptimizationThompson Sampling	—Unverified
Model-based Meta Reinforcement Learning using Graph Structured Surrogate Models	Feb 16, 2021	Decision MakingMeta Reinforcement Learning	—Unverified
Model-Free Approximate Bayesian Learning for Large-Scale Conversion Funnel Optimization	Jan 12, 2024	Decision MakingMarketing	—Unverified
Modified Meta-Thompson Sampling for Linear Bandits and Its Bayes Regret Analysis	Sep 10, 2024	Meta-LearningMulti-Armed Bandits	—Unverified
Module-wise Adaptive Distillation for Multimodality Foundation Models	Oct 6, 2023	Image CaptioningThompson Sampling	—Unverified
Monte Carlo Tree Search Algorithms for Risk-Aware and Multi-Objective Reinforcement Learning	Nov 23, 2022	Multi-Objective Reinforcement Learningreinforcement-learning	—Unverified
Monte-Carlo tree search with uncertainty propagation via optimal transport	Sep 19, 2023	Thompson Sampling	—Unverified
MOTS: Minimax Optimal Thompson Sampling	Mar 3, 2020	Thompson Sampling	—Unverified
Multi-Agent Active Search using Detection and Location Uncertainty	Mar 9, 2022	Decision MakingDisaster Response	—Unverified
Multi-armed Bandit Algorithms on System-on-Chip: Go Frequentist or Bayesian?	Jun 5, 2021	Thompson Sampling	—Unverified
Multi-Armed Bandit Strategies for Non-Stationary Reward Distributions and Delayed Feedback Processes	Feb 22, 2019	Thompson Sampling	—Unverified
Multi-dueling Bandits with Dependent Arms	Apr 29, 2017	Thompson Sampling	—Unverified
Multi-Task Combinatorial Bandits for Budget Allocation	Aug 31, 2024	Gaussian ProcessesMarketing	—Unverified
Near Optimal Adversarial Attacks on Stochastic Bandits and Defenses with Smoothed Responses	Aug 21, 2020	Adversarial AttackThompson Sampling	—Unverified
Neural Contextual Bandits Under Delayed Feedback Constraints	Apr 16, 2025	Multi-Armed BanditsRecommendation Systems	—Unverified
Neural Dueling Bandits: Preference-Based Optimization with Human Feedback	Jul 24, 2024	Thompson Sampling	—Unverified
Neural Model-based Optimization with Right-Censored Observations	Sep 29, 2020	modelregression	—Unverified

Show:10 25 50

← PrevPage 9 of 14Next →

No leaderboard results yet.