Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 655 papers

Title	Date	Tasks	Status
An Adversarial Analysis of Thompson Sampling for Full-information Online Learning: from Finite to Infinite Action Spaces	Feb 20, 2025	Bayesian OptimizationThompson Sampling	—Unverified
Analysis and Design of Thompson Sampling for Stochastic Partial Monitoring	Jun 17, 2020	Decision MakingThompson Sampling	—Unverified
Analysis of Thompson Sampling for Combinatorial Multi-armed Bandit with Probabilistically Triggered Arms	Sep 7, 2018	Thompson Sampling	—Unverified
Adaptive Rate of Convergence of Thompson Sampling for Gaussian Process Optimization	May 18, 2017	global-optimizationThompson Sampling	—Unverified
Analysis of Thompson Sampling for Graphical Bandits Without the Graphs	May 23, 2018	Thompson Sampling	—Unverified
Analysis of Thompson Sampling for Partially Observable Contextual Multi-Armed Bandits	Oct 23, 2021	Decision MakingMulti-Armed Bandits	—Unverified
Analyzing and Enhancing Queue Sampling for Energy-Efficient Remote Control of Bandits	May 15, 2024	Autonomous VehiclesThompson Sampling	—Unverified
An Analysis of Ensemble Sampling	Mar 2, 2022	Thompson Sampling	—Unverified
An Arm-Wise Randomization Approach to Combinatorial Linear Semi-Bandits	Sep 5, 2019	Decision MakingRecommendation Systems	—Unverified
An Efficient Algorithm For Generalized Linear Bandit: Online Stochastic Gradient Descent and Thompson Sampling	Jun 7, 2020	Thompson Sampling	—Unverified
A Formal Solution to the Grain of Truth Problem	Sep 16, 2016	Thompson Sampling	—Unverified
An Empirical Evaluation of Thompson Sampling	Dec 1, 2011	Multi-Armed BanditsThompson Sampling	—Unverified
AdaptEx: A Self-Service Contextual Bandit Platform	Aug 8, 2023	Multi-Armed BanditsThompson Sampling	—Unverified
BanditCAT and AutoIRT: Machine Learning Approaches to Computerized Adaptive Testing and Item Calibration	Oct 28, 2024	AutoMLThompson Sampling	—Unverified
A Federated Online Restless Bandit Framework for Cooperative Resource Allocation	Jun 12, 2024	Federated LearningMulti-Armed Bandits	—Unverified
Adjusted Expected Improvement for Cumulative Regret Minimization in Noisy Bayesian Optimization	May 10, 2022	Bayesian OptimizationThompson Sampling	—Unverified
Active Search for High Recall: a Non-Stationary Extension of Thompson Sampling	Dec 27, 2017	Multi-Armed BanditsThompson Sampling	—Unverified
A Distributed Neural Linear Thompson Sampling Framework to Achieve URLLC in Industrial IoT	Nov 21, 2023	SchedulingThompson Sampling	—Unverified
Active Reinforcement Learning with Monte-Carlo Tree Search	Mar 13, 2018	reinforcement-learningReinforcement Learning	—Unverified
A Bandit Approach to Online Pricing for Heterogeneous Edge Resource Allocation	Feb 14, 2023	Edge-computingThompson Sampling	—Unverified
AutoSeM: Automatic Task Selection and Mixing in Multi-Task Learning	Apr 8, 2019	Bayesian OptimizationInductive Bias	—Unverified
Bandit Change-Point Detection for Real-Time Monitoring High-Dimensional Data Under Sampling Control	Sep 24, 2020	Change Point DetectionComputational Efficiency	—Unverified
Adaptive Experimentation in the Presence of Exogenous Nonstationary Variation	Feb 18, 2022	Thompson Sampling	—Unverified
Approximate Thompson Sampling for Learning Linear Quadratic Regulators with O(T) Regret	May 29, 2024	Thompson Sampling	—Unverified
Approximate information for efficient exploration-exploitation strategies	Jul 4, 2023	Decision MakingEfficient Exploration	—Unverified
Fast Change Identification in Multi-Play Bandits and its Applications in Wireless Networks	May 20, 2022	Change DetectionEdge-computing	—Unverified
A Bayesian Choice Model for Eliminating Feedback Loops	Aug 15, 2019	Recommendation SystemsThompson Sampling	—Unverified
A Practical Method for Solving Contextual Bandit Problems Using Decision Trees	Jun 14, 2017	Thompson Sampling	—Unverified
A Provably Efficient Model-Free Posterior Sampling Method for Episodic Reinforcement Learning	Aug 23, 2022	Multi-Armed Banditsreinforcement-learning	—Unverified
Efficiently Tackling Million-Dimensional Multiobjective Problems: A Direction Sampling and Fine-Tuning Approach	Apr 8, 2023	Multiobjective OptimizationRecommendation Systems	—Unverified
A Reinforcement Learning based Reset Policy for CDCL SAT Solvers	Apr 4, 2024	reinforcement-learningReinforcement Learning	—Unverified
A relaxed technical assumption for posterior sampling-based reinforcement learning for control of unknown linear systems	Aug 19, 2021	Thompson Sampling	—Unverified
A Reliability-aware Multi-armed Bandit Approach to Learn and Select Users in Demand Response	Mar 20, 2020	AvgThompson Sampling	—Unverified
A resource-constrained stochastic scheduling algorithm for homeless street outreach and gleaning edible food	Mar 15, 2024	SchedulingThompson Sampling	—Unverified
A sequential Monte Carlo approach to Thompson sampling for Bayesian optimization	Apr 1, 2016	Bayesian OptimizationThompson Sampling	—Unverified
A Simple and Optimal Policy Design with Safety against Heavy-Tailed Risk for Stochastic Bandits	Jun 7, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
A study of Thompson Sampling with Parameter h	Oct 5, 2017	Thompson Sampling	—Unverified
Asymptotically Optimal Algorithms for Budgeted Multiple Play Bandits	Jun 30, 2016	Thompson Sampling	—Unverified
Asymptotically Optimal Bandits under Weighted Information	May 28, 2021	Thompson Sampling	—Unverified
Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget	Jun 3, 2025	Thompson Sampling	—Unverified
The Choice of Noninformative Priors for Thompson Sampling in Multiparameter Bandit Models	Feb 28, 2023	Multi-Armed BanditsThompson Sampling	—Unverified
Asymptotic Convergence of Thompson Sampling	Nov 8, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Asymptotic Performance of Thompson Sampling in the Batched Multi-Armed Bandits	Oct 1, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
Aging Bandits: Regret Analysis and Order-Optimal Learning Algorithm for Wireless Networks with Stochastic Arrivals	Dec 16, 2020	Thompson Sampling	—Unverified
Apple Tasting Revisited: Bayesian Approaches to Partially Monitored Online Binary Classification	Sep 29, 2021	Binary ClassificationThompson Sampling	—Unverified
Asynchronous Multi Agent Active Search	Jun 25, 2020	Bayesian OptimizationCompressive Sensing	—Unverified
Algorithms for Adaptive Experiments that Trade-off Statistical Analysis with Reward: Combining Uniform Random Assignment and Reward Maximization	Dec 15, 2021	Thompson Sampling	—Unverified
An Unbiased Data Collection and Content Exploitation/Exploration Strategy for Personalization	Apr 12, 2016	Recommendation SystemsThompson Sampling	—Unverified
Augmented RBMLE-UCB Approach for Adaptive Control of Linear Quadratic Systems	Jan 25, 2022	parameter estimationThompson Sampling	—Unverified
Adaptive Sensor Placement for Continuous Spaces	May 16, 2019	Thompson Sampling	—Unverified

Show:10 25 50

← PrevPage 2 of 14Next →

No leaderboard results yet.