Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 655 papers

Title	Date	Tasks	Status
From Predictions to Decisions: The Importance of Joint Predictive Distributions	Jul 20, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
Evaluation of Explore-Exploit Policies in Multi-result Ranking Systems	Apr 28, 2015	News RecommendationThompson Sampling	—Unverified
Convergence Rates of Posterior Distributions in Markov Decision Process	Jul 22, 2019	Thompson Sampling	—Unverified
Expected Improvement-based Contextual Bandits	Sep 29, 2021	Bayesian OptimizationMulti-Armed Bandits	—Unverified
A study of Thompson Sampling with Parameter h	Oct 5, 2017	Thompson Sampling	—Unverified
A Formal Solution to the Grain of Truth Problem	Sep 16, 2016	Thompson Sampling	—Unverified
AdaptEx: A Self-Service Contextual Bandit Platform	Aug 8, 2023	Multi-Armed BanditsThompson Sampling	—Unverified
Contextual Thompson Sampling via Generation of Missing Data	Feb 10, 2025	Decision MakingFairness	—Unverified
Contextual Multi-Armed Bandits for Causal Marketing	Oct 2, 2018	Causal Inferencecounterfactual	—Unverified
A Simple and Optimal Policy Design with Safety against Heavy-Tailed Risk for Stochastic Bandits	Jun 7, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Contextual Multi-armed Bandit Algorithm for Semiparametric Reward Model	Jan 31, 2019	Recommendation SystemsThompson Sampling	—Unverified
Contextual Bandit with Herding Effects: Algorithms and Recommendation Applications	Aug 26, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
A sequential Monte Carlo approach to Thompson sampling for Bayesian optimization	Apr 1, 2016	Bayesian OptimizationThompson Sampling	—Unverified
A Federated Online Restless Bandit Framework for Cooperative Resource Allocation	Jun 12, 2024	Federated LearningMulti-Armed Bandits	—Unverified
Contextual Bandits with Non-Stationary Correlated Rewards for User Association in MmWave Vehicular Networks	Oct 8, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Contextual Bandits for Advertising Budget Allocation	Aug 22, 2020	MarketingMulti-Armed Bandits	—Unverified
A resource-constrained stochastic scheduling algorithm for homeless street outreach and gleaning edible food	Mar 15, 2024	SchedulingThompson Sampling	—Unverified
Adaptive Portfolio by Solving Multi-armed Bandit via Thompson Sampling	Nov 13, 2019	Decision MakingManagement	—Unverified
Context Attribution with Multi-Armed Bandit Optimization	Jun 24, 2025	Thompson Sampling	—Unverified
A Reliability-aware Multi-armed Bandit Approach to Learn and Select Users in Demand Response	Mar 20, 2020	AvgThompson Sampling	—Unverified
Adjusted Expected Improvement for Cumulative Regret Minimization in Noisy Bayesian Optimization	May 10, 2022	Bayesian OptimizationThompson Sampling	—Unverified
Active Search for High Recall: a Non-Stationary Extension of Thompson Sampling	Dec 27, 2017	Multi-Armed BanditsThompson Sampling	—Unverified
Context Attentive Bandits: Contextual Bandit with Restricted Context	May 10, 2017	Recommendation SystemsThompson Sampling	—Unverified
A relaxed technical assumption for posterior sampling-based reinforcement learning for control of unknown linear systems	Aug 19, 2021	Thompson Sampling	—Unverified
Constrained Thompson Sampling for Wireless Link Optimization	Feb 28, 2019	Thompson Sampling	—Unverified
A Reinforcement Learning based Reset Policy for CDCL SAT Solvers	Apr 4, 2024	reinforcement-learningReinforcement Learning	—Unverified
Constrained Thompson Sampling for Real-Time Electricity Pricing with Grid Reliability Constraints	Jun 17, 2020	Thompson Sampling	—Unverified
Constrained Contextual Bandit Learning for Adaptive Radar Waveform Selection	Mar 9, 2021	Thompson Sampling	—Unverified
Efficiently Tackling Million-Dimensional Multiobjective Problems: A Direction Sampling and Fine-Tuning Approach	Apr 8, 2023	Multiobjective OptimizationRecommendation Systems	—Unverified
Connections Between Mirror Descent, Thompson Sampling and the Information Ratio	May 28, 2019	Thompson Sampling	—Unverified
Connecting Thompson Sampling and UCB: Towards More Efficient Trade-offs Between Privacy and Regret	May 5, 2025	Thompson Sampling	—Unverified
A Provably Efficient Model-Free Posterior Sampling Method for Episodic Reinforcement Learning	Aug 23, 2022	Multi-Armed Banditsreinforcement-learning	—Unverified
A Distributed Neural Linear Thompson Sampling Framework to Achieve URLLC in Industrial IoT	Nov 21, 2023	SchedulingThompson Sampling	—Unverified
Active Reinforcement Learning with Monte-Carlo Tree Search	Mar 13, 2018	reinforcement-learningReinforcement Learning	—Unverified
Accelerating Grasp Exploration by Leveraging Learned Priors	Nov 11, 2020	ObjectThompson Sampling	—Unverified
Concurrent Decentralized Channel Allocation and Access Point Selection using Multi-Armed Bandits in multi BSS WLANs	Jun 5, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Combining Bayesian Optimization and Lipschitz Optimization	Oct 10, 2018	Bayesian Optimizationglobal-optimization	—Unverified
A Practical Method for Solving Contextual Bandit Problems Using Decision Trees	Jun 14, 2017	Thompson Sampling	—Unverified
Combinatorial Neural Bandits	May 31, 2023	Thompson Sampling	—Unverified
Combinatorial Multi-armed Bandit with Probabilistically Triggered Arms: A Case with Bounded Regret	Jul 24, 2017	Movie RecommendationThompson Sampling	—Unverified
Adaptive Experimentation in the Presence of Exogenous Nonstationary Variation	Feb 18, 2022	Thompson Sampling	—Unverified
Combinatorial Multi-armed Bandits: Arm Selection via Group Testing	Oct 14, 2024	Multi-Armed Banditsparameter estimation	—Unverified
Bayesian Analysis of Combinatorial Gaussian Process Bandits	Dec 20, 2023	Bayesian InferenceInformativeness	—Unverified
Approximate Thompson Sampling for Learning Linear Quadratic Regulators with O(T) Regret	May 29, 2024	Thompson Sampling	—Unverified
Code Repair with LLMs gives an Exploration-Exploitation Tradeoff	May 26, 2024	Code RepairLanguage Modeling	—Unverified
Chimera: A Hybrid Machine Learning Driven Multi-Objective Design Space Exploration Tool for FPGA High-Level Synthesis	Jul 3, 2022	Active LearningDescriptive	—Unverified
Approximate information for efficient exploration-exploitation strategies	Jul 4, 2023	Decision MakingEfficient Exploration	—Unverified
Fast Change Identification in Multi-Play Bandits and its Applications in Wireless Networks	May 20, 2022	Change DetectionEdge-computing	—Unverified
Challenges in Statistical Analysis of Data Collected by a Bandit Algorithm: An Empirical Exploration in Applications to Adaptively Randomized Experiments	Mar 22, 2021	Thompson Sampling	—Unverified
Chained Information-Theoretic bounds and Tight Regret Rate for Linear Bandit Problems	Mar 5, 2024	Thompson Sampling	—Unverified

Show:10 25 50

← PrevPage 6 of 14Next →

No leaderboard results yet.