Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 126–150 of 655 papers

Title	Date	Tasks	Status
Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space	Jun 5, 2023	Thompson Sampling	—Unverified
Adaptive Operator Selection Based on Dynamic Thompson Sampling for MOEA/D	Apr 22, 2020	Thompson Sampling	—Unverified
Tsallis-INF: An Optimal Algorithm for Stochastic and Adversarial Bandits	Jul 19, 2018	Multi-Armed BanditsThompson Sampling	—Unverified
A Quantile-based Approach for Hyperparameter Transfer Learning	Sep 30, 2019	Bayesian OptimizationHyperparameter Optimization	—Unverified
Bayesian Analysis of Combinatorial Gaussian Process Bandits	Dec 20, 2023	Bayesian InferenceInformativeness	—Unverified
Combinatorial Multi-armed Bandits: Arm Selection via Group Testing	Oct 14, 2024	Multi-Armed Banditsparameter estimation	—Unverified
A Nonparametric Contextual Bandit with Arm-level Eligibility Control for Customer Service Routing	Sep 8, 2022	Thompson Sampling	—Unverified
An Online Learning Framework for Energy-Efficient Navigation of Electric Vehicles	Mar 3, 2020	NavigateThompson Sampling	—Unverified
Adaptive Model Selection Framework: An Application to Airline Pricing	May 21, 2019	Model SelectionThompson Sampling	—Unverified
Belief Flows of Robust Online Learning	May 26, 2015	General Classificationregression	—Unverified
BBQ-Networks: Efficient Exploration in Deep Reinforcement Learning for Task-Oriented Dialogue Systems	Aug 17, 2016	Deep Reinforcement LearningEfficient Exploration	—Unverified
An Information-Theoretic Analysis of Thompson Sampling with Infinite Action Spaces	Feb 4, 2025	Thompson Sampling	—Unverified
BBQ-Networks: Efficient Exploration in Deep Reinforcement Learning for Task-Oriented Dialogue Systems	Nov 15, 2017	Deep Reinforcement LearningEfficient Exploration	—Unverified
Best Arm Identification in Batched Multi-armed Bandit Problems	Dec 21, 2023	MarketingThompson Sampling	—Unverified
Active RLHF via Best Policy Learning from Trajectory Preference Feedback	Jan 31, 2025	Thompson Sampling	—Unverified
Better Optimism By Bayes: Adaptive Planning with Rich Models	Feb 9, 2014	Model-based Reinforcement LearningReinforcement Learning	—Unverified
Blind Exploration and Exploitation of Stochastic Experts	Apr 2, 2021	Thompson Sampling	—Unverified
Bootstrapped Thompson Sampling and Deep Exploration	Jul 1, 2015	reinforcement-learningReinforcement Learning	—Unverified
BOTS: Batch Bayesian Optimization of Extended Thompson Sampling for Severely Episode-Limited RL Settings	Nov 30, 2024	Bayesian OptimizationPolicy Gradient Methods	—Unverified
Calibrated Fairness in Bandits	Jul 6, 2017	Decision MakingFairness	—Unverified
A Note on Information-Directed Sampling and Thompson Sampling	Mar 24, 2015	Thompson Sampling	—Unverified
An Unbiased Data Collection and Content Exploitation/Exploration Strategy for Personalization	Apr 12, 2016	Recommendation SystemsThompson Sampling	—Unverified
Causal Bandits without prior knowledge using separating sets	Sep 16, 2020	Causal DiscoveryDecision Making	—Unverified
Chained Information-Theoretic bounds and Tight Regret Rate for Linear Bandit Problems	Mar 5, 2024	Thompson Sampling	—Unverified
Bayesian Quantile and Expectile Optimisation	Jan 12, 2020	Bayesian OptimisationGaussian Processes	—Unverified

Show:10 25 50

← PrevPage 6 of 27Next →

No leaderboard results yet.