Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 655 papers

Title	Date	Tasks	Status
Feel-Good Thompson Sampling for Contextual Bandits and Reinforcement Learning	Oct 2, 2021	Multi-Armed Banditsregression	—Unverified
Feel-Good Thompson Sampling for Contextual Dueling Bandits	Apr 9, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Finite-Time Regret of Thompson Sampling Algorithms for Exponential Family Multi-Armed Bandits	Jun 7, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
First-Order Bayesian Regret Analysis of Thompson Sampling	Feb 2, 2019	Combinatorial OptimizationThompson Sampling	—Unverified
Fixed-Confidence Guarantees for Bayesian Best-Arm Identification	Oct 24, 2019	Thompson Sampling	—Unverified
Fourier Representations for Black-Box Optimization over Categorical Variables	Feb 8, 2022	regressionThompson Sampling	—Unverified
Freshness-Aware Thompson Sampling	Sep 29, 2014	Recommendation SystemsThompson Sampling	—Unverified
From Bandits Model to Deep Deterministic Policy Gradient, Reinforcement Learning with Contextual Information	Oct 1, 2023	Decision Makingreinforcement-learning	—Unverified
Fully Distributed Bayesian Optimization with Stochastic Policies	Feb 26, 2019	Bayesian OptimizationThompson Sampling	—Unverified
Gaussian Process Thompson Sampling via Rootfinding	Oct 10, 2024	Bayesian OptimizationDecision Making	—Unverified
Generalized Bayesian deep reinforcement learning	Dec 16, 2024	Deep Reinforcement Learningreinforcement-learning	—Unverified
Generalized Probabilistic Bisection for Stochastic Root-Finding	Nov 2, 2017	Thompson Sampling	—Unverified
Generalized Regret Analysis of Thompson Sampling using Fractional Posteriors	Sep 12, 2023	Thompson Sampling	—Unverified
Generalized Thompson Sampling for Contextual Bandits	Oct 27, 2013	Multi-Armed BanditsThompson Sampling	—Unverified
Generator-Mediated Bandits: Thompson Sampling for GenAI-Powered Adaptive Interventions	May 22, 2025	Large Language ModelThompson Sampling	—Unverified
Geometry-Aware Approaches for Balancing Performance and Theoretical Guarantees in Linear Bandits	Jun 26, 2023	Decision MakingThompson Sampling	—Unverified
Graph Neural Thompson Sampling	Jun 15, 2024	Decision MakingGraph Neural Network	—Unverified
Feedback graph regret bounds for Thompson Sampling and UCB	May 23, 2019	Thompson Sampling	—Unverified
Greedy Bandits with Sampled Context	Jul 27, 2020	Decision MakingMulti-Armed Bandits	—Unverified
Greedy k-Center from Noisy Distance Samples	Nov 3, 2020	Thompson Sampling	—Unverified
GuideBoot: Guided Bootstrap for Deep Contextual Bandits	Jul 18, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
GUTS: Generalized Uncertainty-Aware Thompson Sampling for Multi-Agent Active Search	Apr 4, 2023	AllDisaster Response	—Unverified
gym-saturation: Gymnasium environments for saturation provers (System description)	Sep 16, 2023	OpenAI Gymreinforcement-learning	—Unverified
Hierarchical Bayesian Bandits	Nov 12, 2021	Federated LearningThompson Sampling	—Unverified
High-dimensional near-optimal experiment design for drug discovery via Bayesian sparse sampling	Apr 23, 2021	Bayesian InferenceDrug Discovery	—Unverified
Horde of Bandits using Gaussian Markov Random Fields	Mar 7, 2017	ClusteringMulti-Armed Bandits	—Unverified
Human collective intelligence as distributed Bayesian inference	Aug 5, 2016	Bayesian InferenceDecision Making	—Unverified
Hypermodels for Exploration	Jun 12, 2020	Thompson Sampling	—Unverified
IBAC: An Intelligent Dynamic Bandwidth Channel Access Avoiding Outside Warning Range Problem	Jan 15, 2022	Thompson Sampling	—Unverified
Improved Bayesian Regret Bounds for Thompson Sampling in Reinforcement Learning	Oct 30, 2023	reinforcement-learningReinforcement Learning	—Unverified
Improved Regret Bounds for Thompson Sampling in Linear Quadratic Control Problems	Jul 1, 2018	Reinforcement LearningThompson Sampling	—Unverified
Improved Worst-Case Regret Bounds for Randomized Least-Squares Value Iteration	Oct 23, 2020	reinforcement-learningReinforcement Learning	—Unverified
Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions	Jun 16, 2024	Multi-Armed BanditsPolicy Gradient Methods	—Unverified
Improving sample efficiency of high dimensional Bayesian optimization with MCMC	Jan 5, 2024	Bayesian OptimizationThompson Sampling	—Unverified
Improving Thompson Sampling via Information Relaxation for Budgeted Multi-armed Bandits	Aug 28, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Incentivized Exploration for Multi-Armed Bandits under Reward Drift	Nov 12, 2019	Multi-Armed BanditsThompson Sampling	—Unverified
Incentivizing Combinatorial Bandit Exploration	Jun 1, 2022	Thompson Sampling	—Unverified
Incentivizing Exploration with Linear Contexts and Combinatorial Actions	Jun 3, 2023	Thompson Sampling	—Unverified
Incorporating Behavioral Constraints in Online AI Systems	Sep 15, 2018	Thompson Sampling	—Unverified
Increasing Students' Engagement to Reminder Emails Through Multi-Armed Bandits	Aug 10, 2022	ManagementMulti-Armed Bandits	—Unverified
Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits	May 24, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
In-Domain African Languages Translation Using LLMs and Multi-armed Bandits	May 21, 2025	Domain AdaptationMachine Translation	—Unverified
Influence Diagram Bandits: Variational Thompson Sampling for Structured Bandit Problems	Jul 9, 2020	Thompson Sampling	—Unverified
Influencing Bandits: Arm Selection for Preference Shaping	Feb 29, 2024	Recommendation SystemsThompson Sampling	—Unverified
Information Directed Sampling and Bandits with Heteroscedastic Noise	Jan 29, 2018	Bayesian OptimizationThompson Sampling	—Unverified
Information Directed Sampling for Stochastic Bandits with Graph Feedback	Nov 8, 2017	Decision MakingThompson Sampling	—Unverified
Information-Theoretic Confidence Bounds for Reinforcement Learning	Nov 21, 2019	reinforcement-learningReinforcement Learning	—Unverified
IntelligentPooling: Practical Thompson Sampling for mHealth	Jul 31, 2020	reinforcement-learningReinforcement Learning	—Unverified
Joint User Association and Pairing in Multi-UAV-Assisted NOMA Networks: A Decaying-Epsilon Thompson Sampling Framework	Jun 20, 2024	Thompson Sampling	—Unverified
KABB: Knowledge-Aware Bayesian Bandits for Dynamic Expert Coordination in Multi-Agent Systems	Feb 11, 2025	Thompson Sampling	—Unverified

Show:10 25 50

← PrevPage 8 of 14Next →

No leaderboard results yet.