Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–275 of 655 papers

Title	Date	Tasks	Status
From Predictions to Decisions: The Importance of Joint Predictive Distributions	Jul 20, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
Evaluation of Explore-Exploit Policies in Multi-result Ranking Systems	Apr 28, 2015	News RecommendationThompson Sampling	—Unverified
Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space	Jun 5, 2023	Thompson Sampling	—Unverified
Expected Improvement-based Contextual Bandits	Sep 29, 2021	Bayesian OptimizationMulti-Armed Bandits	—Unverified
A Copula approach for hyperparameter transfer learning	Sep 25, 2019	Bayesian OptimizationThompson Sampling	—Unverified
Bayesian Optimization with LLM-Based Acquisition Functions for Natural Language Preference Elicitation	May 2, 2024	Bayesian OptimizationConversational Recommendation	—Unverified
An Information-Theoretic Analysis of Thompson Sampling	Mar 21, 2014	Thompson Sampling	—Unverified
Generalized Probabilistic Bisection for Stochastic Root-Finding	Nov 2, 2017	Thompson Sampling	—Unverified
Feel-Good Thompson Sampling for Contextual Bandits and Reinforcement Learning	Oct 2, 2021	Multi-Armed Banditsregression	—Unverified
An Information-Theoretic Analysis for Thompson Sampling with Many Actions	May 30, 2018	Thompson Sampling	—Unverified
Adaptively Learning to Select-Rank in Online Platforms	Jun 7, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Practical Batch Bayesian Sampling Algorithms for Online Adaptive Traffic Experimentation	May 24, 2023	Thompson Sampling	—Unverified
Generalized Regret Analysis of Thompson Sampling using Fractional Posteriors	Sep 12, 2023	Thompson Sampling	—Unverified
Online Learning with Cumulative Oversampling: Application to Budgeted Influence Maximization	Apr 24, 2020	Thompson Sampling	—Unverified
Bayesian Optimization-Based Beam Alignment for MmWave MIMO Communication Systems	Jul 28, 2022	Bayesian OptimizationThompson Sampling	—Unverified
Feel-Good Thompson Sampling for Contextual Dueling Bandits	Apr 9, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Bayesian Optimization with Inexact Acquisition: Is Random Grid Search Sufficient?	Jun 13, 2025	Bayesian OptimizationThompson Sampling	—Unverified
Finite-Time Regret of Thompson Sampling Algorithms for Exponential Family Multi-Armed Bandits	Jun 7, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
First-Order Bayesian Regret Analysis of Thompson Sampling	Feb 2, 2019	Combinatorial OptimizationThompson Sampling	—Unverified
Fixed-Confidence Guarantees for Bayesian Best-Arm Identification	Oct 24, 2019	Thompson Sampling	—Unverified
Fourier Representations for Black-Box Optimization over Categorical Variables	Feb 8, 2022	regressionThompson Sampling	—Unverified
Freshness-Aware Thompson Sampling	Sep 29, 2014	Recommendation SystemsThompson Sampling	—Unverified
From Bandits Model to Deep Deterministic Policy Gradient, Reinforcement Learning with Contextual Information	Oct 1, 2023	Decision Makingreinforcement-learning	—Unverified
Fully Distributed Bayesian Optimization with Stochastic Policies	Feb 26, 2019	Bayesian OptimizationThompson Sampling	—Unverified
A Contextual Combinatorial Semi-Bandit Approach to Network Bottleneck Identification	Jun 16, 2022	Multi-Armed BanditsThompson Sampling	—Unverified

Show:10 25 50

← PrevPage 11 of 27Next →

No leaderboard results yet.