Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–425 of 655 papers

Title	Date	Tasks	Status
Learning by Repetition: Stochastic Multi-armed Bandits under Priming Effect	Jun 18, 2020	Decision MakingMulti-Armed Bandits	—Unverified
Sample Efficient Learning of Factored Embeddings of Tensor Fields	Sep 1, 2022	Recommendation SystemsThompson Sampling	—Unverified
Learning How to Infer Partial MDPs for In-Context Adaptation and Exploration	Feb 8, 2023	Bayesian InferenceThompson Sampling	—Unverified
Learning to Optimize Via Posterior Sampling	Jan 11, 2013	Thompson Sampling	—Unverified
Learning to Price with Reference Effects	Aug 29, 2017	Reinforcement LearningThompson Sampling	—Unverified
Learning to Rank in the Position Based Model with Bandit Feedback	Apr 27, 2020	Learning-To-RankMulti-Armed Bandits	—Unverified
Learning Unknown Markov Decision Processes: A Thompson Sampling Approach	Sep 14, 2017	Reinforcement LearningThompson Sampling	—Unverified
Lenient Regret for Multi-Armed Bandits	Aug 10, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Leveraging Demonstrations to Improve Online Learning: Quality Matters	Feb 7, 2023	Thompson Sampling	—Unverified
Leveraging Offline Data from Similar Systems for Online Linear Quadratic Control	May 14, 2025	Thompson Sampling	—Unverified
Lifting the Information Ratio: An Information-Theoretic Analysis of Thompson Sampling for Contextual Bandits	May 27, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Linear Bandit algorithms using the Bootstrap	May 4, 2016	Thompson Sampling	—Unverified
Linear Thompson Sampling Revisited	Nov 20, 2016	Thompson Sampling	—Unverified
Little Exploration is All You Need	Oct 26, 2023	AllThompson Sampling	—Unverified
Maillard Sampling: Boltzmann Exploration Done Optimally	Nov 5, 2021	counterfactualThompson Sampling	—Unverified
Making RL with Preference-based Feedback Efficient via Randomization	Oct 23, 2023	Active LearningThompson Sampling	—Unverified
Making Sense of Reinforcement Learning and Probabilistic Inference	Jan 3, 2020	reinforcement-learningReinforcement Learning	—Unverified
Markov Decision Process modeled with Bandits for Sequential Decision Making in Linear-flow	Jul 1, 2021	Decision MakingMarketing	—Unverified
Optimization-Driven Adaptive Experimentation	Aug 8, 2024	GPUThompson Sampling	—Unverified
Memory Sequence Length of Data Sampling Impacts the Adaptation of Meta-Reinforcement Learning Agents	Jun 18, 2024	continuous-controlContinuous Control	—Unverified
Metadata-based Multi-Task Bandits with Bayesian Hierarchical Models	Aug 13, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
Meta Dynamic Pricing: Transfer Learning Across Experiments	Feb 28, 2019	Thompson SamplingTransfer Learning	—Unverified
Meta Learning in Bandits within Shared Affine Subspaces	Mar 31, 2024	Meta-LearningThompson Sampling	—Unverified
Metalearning Linear Bandits by Prior Update	Jul 12, 2021	Decision MakingSequential Decision Making	—Unverified
Meta Learning of Interface Conditions for Multi-Domain Physics-Informed Neural Networks	Oct 23, 2022	Meta-LearningThompson Sampling	—Unverified

Show:10 25 50

← PrevPage 17 of 27Next →

No leaderboard results yet.