Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 655 papers

Title	Date	Tasks	Status
Modified Meta-Thompson Sampling for Linear Bandits and Its Bayes Regret Analysis	Sep 10, 2024	Meta-LearningMulti-Armed Bandits	—Unverified
Module-wise Adaptive Distillation for Multimodality Foundation Models	Oct 6, 2023	Image CaptioningThompson Sampling	—Unverified
Monte Carlo Tree Search Algorithms for Risk-Aware and Multi-Objective Reinforcement Learning	Nov 23, 2022	Multi-Objective Reinforcement Learningreinforcement-learning	—Unverified
Monte-Carlo tree search with uncertainty propagation via optimal transport	Sep 19, 2023	Thompson Sampling	—Unverified
MOTS: Minimax Optimal Thompson Sampling	Mar 3, 2020	Thompson Sampling	—Unverified
Multi-Agent Active Search using Detection and Location Uncertainty	Mar 9, 2022	Decision MakingDisaster Response	—Unverified
Multi-armed Bandit Algorithms on System-on-Chip: Go Frequentist or Bayesian?	Jun 5, 2021	Thompson Sampling	—Unverified
Multi-Armed Bandit Strategies for Non-Stationary Reward Distributions and Delayed Feedback Processes	Feb 22, 2019	Thompson Sampling	—Unverified
Multi-armed Bandits with Cost Subsidy	Nov 3, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Multi-dueling Bandits with Dependent Arms	Apr 29, 2017	Thompson Sampling	—Unverified
Multi-Task Combinatorial Bandits for Budget Allocation	Aug 31, 2024	Gaussian ProcessesMarketing	—Unverified
Near Optimal Adversarial Attacks on Stochastic Bandits and Defenses with Smoothed Responses	Aug 21, 2020	Adversarial AttackThompson Sampling	—Unverified
Neural Contextual Bandits Under Delayed Feedback Constraints	Apr 16, 2025	Multi-Armed BanditsRecommendation Systems	—Unverified
Neural Dueling Bandits: Preference-Based Optimization with Human Feedback	Jul 24, 2024	Thompson Sampling	—Unverified
Neural Model-based Optimization with Right-Censored Observations	Sep 29, 2020	modelregression	—Unverified
New Insights into Bootstrapping for Bandits	May 24, 2018	Thompson Sampling	—Unverified
No Algorithmic Collusion in Two-Player Blindfolded Game with Thompson Sampling	May 23, 2024	Thompson Sampling	—Unverified
Nonparametric General Reinforcement Learning	Nov 28, 2016	General Reinforcement Learningreinforcement-learning	—Unverified
Non-Stationary Bandit Learning via Predictive Sampling	May 4, 2022	AttributeThompson Sampling	—Unverified
Non-Stationary Dynamic Pricing Via Actor-Critic Information-Directed Pricing	Aug 19, 2022	Thompson Sampling	—Unverified
Non-Stationary Latent Bandits	Dec 1, 2020	Recommendation SystemsThompson Sampling	—Unverified
No Regrets for Learning the Prior in Bandits	Jul 13, 2021	Thompson Sampling	—Unverified
Observation-Free Attacks on Stochastic Bandits	Dec 1, 2021	Thompson Sampling	—Unverified
On Adaptive Estimation for Dynamic Bernoulli Bandits	Dec 8, 2017	Thompson Sampling	—Unverified
On Batch Bayesian Optimization	Nov 4, 2019	Bayesian OptimizationThompson Sampling	—Unverified
On Dynamic Pricing with Covariates	Dec 25, 2021	Thompson Sampling	—Unverified
On Efficiency in Hierarchical Reinforcement Learning	Dec 1, 2020	Computational EfficiencyDecision Making	—Unverified
On Improved Regret Bounds In Bayesian Optimization with Gaussian Noise	Dec 25, 2024	Bayesian OptimizationThompson Sampling	—Unverified
On Kernelized Multi-Armed Bandits with Constraints	Mar 29, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
On learning Whittle index policy for restless bandits with scalable regret	Feb 7, 2022	SchedulingThompson Sampling	—Unverified
Online Algorithms For Parameter Mean And Variance Estimation In Dynamic Regression Models	May 18, 2016	parameter estimationregression	—Unverified
Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits	Feb 18, 2023	Hyperparameter OptimizationMulti-Armed Bandits	—Unverified
Online Causal Inference for Advertising in Real-Time Bidding Auctions	Aug 22, 2019	Causal InferenceExperimental Design	—Unverified
Online Learning and Distributed Control for Residential Demand Response	Oct 11, 2020	Stochastic OptimizationThompson Sampling	—Unverified
Online Learning-based Waveform Selection for Improved Vehicle Recognition in Automotive Radar	Dec 1, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Online Learning of Energy Consumption for Navigation of Electric Vehicles	Nov 3, 2021	NavigateThompson Sampling	—Unverified
Online Learning of Network Bottlenecks via Minimax Paths	Sep 17, 2021	Thompson Sampling	—Unverified
Online Residential Demand Response via Contextual Multi-Armed Bandits	Mar 7, 2020	Decision MakingMulti-Armed Bandits	—Unverified
Only Pay for What Is Uncertain: Variance-Adaptive Thompson Sampling	Mar 16, 2023	Multi-Armed BanditsThompson Sampling	—Unverified
On Multi-Armed Bandit Designs for Dose-Finding Clinical Trials	Mar 17, 2019	Thompson Sampling	—Unverified
On Online Learning in Kernelized Markov Decision Processes	Nov 4, 2019	Thompson Sampling	—Unverified
On The Differential Privacy of Thompson Sampling With Gaussian Prior	Jun 24, 2018	Thompson Sampling	—Unverified
On the Importance of Uncertainty in Decision-Making with Large Language Models	Apr 3, 2024	Decision MakingMulti-Armed Bandits	—Unverified
On the Performance of Thompson Sampling on Logistic Bandits	May 12, 2019	Thompson Sampling	—Unverified
On the Prior Sensitivity of Thompson Sampling	Jun 10, 2015	SensitivityThompson Sampling	—Unverified
On Thompson Sampling for Smoother-than-Lipschitz Bandits	Jan 8, 2020	reinforcement-learningReinforcement Learning	—Unverified
On Thompson Sampling with Langevin Algorithms	Feb 23, 2020	Thompson Sampling	—Unverified
On Frequentist Regret of Linear Thompson Sampling	Jun 11, 2020	Thompson Sampling	—Unverified
Near-Optimal Algorithms for Differentially Private Online Learning in a Stochastic Environment	Feb 16, 2021	Thompson Sampling	—Unverified
Optimal Exploration is no harder than Thompson Sampling	Oct 9, 2023	Thompson Sampling	—Unverified

Show:10 25 50

← PrevPage 7 of 14Next →

No leaderboard results yet.