Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–325 of 655 papers

Title	Date	Tasks	Status
Improving sample efficiency of high dimensional Bayesian optimization with MCMC	Jan 5, 2024	Bayesian OptimizationThompson Sampling	—Unverified
Improving Thompson Sampling via Information Relaxation for Budgeted Multi-armed Bandits	Aug 28, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Incentivized Exploration for Multi-Armed Bandits under Reward Drift	Nov 12, 2019	Multi-Armed BanditsThompson Sampling	—Unverified
Incentivizing Combinatorial Bandit Exploration	Jun 1, 2022	Thompson Sampling	—Unverified
Code Repair with LLMs gives an Exploration-Exploitation Tradeoff	May 26, 2024	Code RepairLanguage Modeling	—Unverified
Incentivizing Exploration with Linear Contexts and Combinatorial Actions	Jun 3, 2023	Thompson Sampling	—Unverified
Incorporating Behavioral Constraints in Online AI Systems	Sep 15, 2018	Thompson Sampling	—Unverified
Increasing Students' Engagement to Reminder Emails Through Multi-Armed Bandits	Aug 10, 2022	ManagementMulti-Armed Bandits	—Unverified
Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits	May 24, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
In-Domain African Languages Translation Using LLMs and Multi-armed Bandits	May 21, 2025	Domain AdaptationMachine Translation	—Unverified
A Contextual Combinatorial Semi-Bandit Approach to Network Bottleneck Identification	Jun 16, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Influencing Bandits: Arm Selection for Preference Shaping	Feb 29, 2024	Recommendation SystemsThompson Sampling	—Unverified
Combinatorial Neural Bandits	May 31, 2023	Thompson Sampling	—Unverified
Information Directed Sampling and Bandits with Heteroscedastic Noise	Jan 29, 2018	Bayesian OptimizationThompson Sampling	—Unverified
Information Directed Sampling for Stochastic Bandits with Graph Feedback	Nov 8, 2017	Decision MakingThompson Sampling	—Unverified
Information-Theoretic Confidence Bounds for Reinforcement Learning	Nov 21, 2019	reinforcement-learningReinforcement Learning	—Unverified
IntelligentPooling: Practical Thompson Sampling for mHealth	Jul 31, 2020	reinforcement-learningReinforcement Learning	—Unverified
Joint User Association and Pairing in Multi-UAV-Assisted NOMA Networks: A Decaying-Epsilon Thompson Sampling Framework	Jun 20, 2024	Thompson Sampling	—Unverified
Fast online inference for nonlinear contextual bandit based on Generative Adversarial Network	Feb 17, 2022	Bayesian InferenceGenerative Adversarial Network	—Unverified
KLUCB Approach to Copeland Bandits	Feb 7, 2019	Information RetrievalReinforcement Learning	—Unverified
Kolmogorov-Smirnov Test-Based Actively-Adaptive Thompson Sampling for Non-Stationary Bandits	May 30, 2021	Edge-computingPortfolio Optimization	—Unverified
Connections Between Mirror Descent, Thompson Sampling and the Information Ratio	May 28, 2019	Thompson Sampling	—Unverified
Bayesian Mixture Modelling and Inference based Thompson Sampling in Monte-Carlo Tree Search	Dec 1, 2013	Thompson Sampling	—Unverified
An improved regret analysis for UCB-N and TS-N	May 6, 2023	LEMMAThompson Sampling	—Unverified
Langevin Thompson Sampling with Logarithmic Communication: Bandits and Reinforcement Learning	Jun 15, 2023	Decision MakingMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 13 of 27Next →

No leaderboard results yet.