Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 655 papers

Title	Date	Tasks	Status
A Multi-Armed Bandit to Smartly Select a Training Set from Big Medical Data	May 23, 2017	Thompson Sampling	—Unverified
Adaptive Combinatorial Allocation	Nov 4, 2020	Thompson Sampling	—Unverified
Automatic Ensemble Learning for Online Influence Maximization	Nov 25, 2019	Ensemble LearningMulti-Armed Bandits	—Unverified
AutoSeM: Automatic Task Selection and Mixing in Multi-Task Learning	Apr 8, 2019	Bayesian OptimizationInductive Bias	—Unverified
Bag of Policies for Distributional Deep Exploration	Aug 3, 2023	Atari GamesEfficient Exploration	—Unverified
BanditCAT and AutoIRT: Machine Learning Approaches to Computerized Adaptive Testing and Item Calibration	Oct 28, 2024	AutoMLThompson Sampling	—Unverified
Bandit Change-Point Detection for Real-Time Monitoring High-Dimensional Data Under Sampling Control	Sep 24, 2020	Change Point DetectionComputational Efficiency	—Unverified
Bandit Convex Optimization: sqrtT Regret in One Dimension	Feb 23, 2015	Thompson Sampling	—Unverified
Bandit Learning for Diversified Interactive Recommendation	Jul 1, 2019	Bayesian InferenceDiversity	—Unverified
Adaptive Rate of Convergence of Thompson Sampling for Gaussian Process Optimization	May 18, 2017	global-optimizationThompson Sampling	—Unverified
Bandit Models of Human Behavior: Reward Processing in Mental Disorders	Jun 7, 2017	Decision MakingThompson Sampling	—Unverified
Bandit Policies for Reliable Cellular Network Handovers in Extreme Mobility	Oct 28, 2020	Thompson Sampling	—Unverified
Bandits Under The Influence (Extended Version)	Sep 21, 2020	Recommendation SystemsThompson Sampling	—Unverified
Bandit Theory and Thompson Sampling-Guided Directed Evolution for Sequence Optimization	Jun 5, 2022	BIG-bench Machine LearningEvolutionary Algorithms	—Unverified
Batch Bayesian Optimization for Replicable Experimental Design	Nov 2, 2023	AutoMLBayesian Optimization	—Unverified
Adaptive Sensor Placement for Continuous Spaces	May 16, 2019	Thompson Sampling	—Unverified
Batched Thompson Sampling	Oct 1, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
Batched Thompson Sampling for Multi-Armed Bandits	Aug 15, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
An Arm-Wise Randomization Approach to Combinatorial Linear Semi-Bandits	Sep 5, 2019	Decision MakingRecommendation Systems	—Unverified
Bayesian Bandit Algorithms with Approximate Inference in Stochastic Linear Bandits	Jun 20, 2024	Bayesian InferenceThompson Sampling	—Unverified
An Efficient Algorithm For Generalized Linear Bandit: Online Stochastic Gradient Descent and Thompson Sampling	Jun 7, 2020	Thompson Sampling	—Unverified
Bayesian Best-Arm Identification for Selecting Influenza Mitigation Strategies	Nov 16, 2017	Decision MakingThompson Sampling	—Unverified
Code Repair with LLMs gives an Exploration-Exploitation Tradeoff	May 26, 2024	Code RepairLanguage Modeling	—Unverified
Bayesian decision-making under misspecified priors with applications to meta-learning	Jul 3, 2021	Decision MakingMeta-Learning	—Unverified
Bayesian-Guided Generation of Synthetic Microbiomes with Minimized Pathogenicity	Apr 29, 2024	Bayesian OptimizationThompson Sampling	—Unverified
Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space	Jun 5, 2023	Thompson Sampling	—Unverified
Adaptive Operator Selection Based on Dynamic Thompson Sampling for MOEA/D	Apr 22, 2020	Thompson Sampling	—Unverified
Tsallis-INF: An Optimal Algorithm for Stochastic and Adversarial Bandits	Jul 19, 2018	Multi-Armed BanditsThompson Sampling	—Unverified
A Quantile-based Approach for Hyperparameter Transfer Learning	Sep 30, 2019	Bayesian OptimizationHyperparameter Optimization	—Unverified
Bayesian Analysis of Combinatorial Gaussian Process Bandits	Dec 20, 2023	Bayesian InferenceInformativeness	—Unverified
Combinatorial Multi-armed Bandits: Arm Selection via Group Testing	Oct 14, 2024	Multi-Armed Banditsparameter estimation	—Unverified
A Nonparametric Contextual Bandit with Arm-level Eligibility Control for Customer Service Routing	Sep 8, 2022	Thompson Sampling	—Unverified
An Online Learning Framework for Energy-Efficient Navigation of Electric Vehicles	Mar 3, 2020	NavigateThompson Sampling	—Unverified
Adaptive Model Selection Framework: An Application to Airline Pricing	May 21, 2019	Model SelectionThompson Sampling	—Unverified
Belief Flows of Robust Online Learning	May 26, 2015	General Classificationregression	—Unverified
BBQ-Networks: Efficient Exploration in Deep Reinforcement Learning for Task-Oriented Dialogue Systems	Aug 17, 2016	Deep Reinforcement LearningEfficient Exploration	—Unverified
An Information-Theoretic Analysis of Thompson Sampling with Infinite Action Spaces	Feb 4, 2025	Thompson Sampling	—Unverified
BBQ-Networks: Efficient Exploration in Deep Reinforcement Learning for Task-Oriented Dialogue Systems	Nov 15, 2017	Deep Reinforcement LearningEfficient Exploration	—Unverified
Best Arm Identification in Batched Multi-armed Bandit Problems	Dec 21, 2023	MarketingThompson Sampling	—Unverified
Active RLHF via Best Policy Learning from Trajectory Preference Feedback	Jan 31, 2025	Thompson Sampling	—Unverified
Better Optimism By Bayes: Adaptive Planning with Rich Models	Feb 9, 2014	Model-based Reinforcement LearningReinforcement Learning	—Unverified
Blind Exploration and Exploitation of Stochastic Experts	Apr 2, 2021	Thompson Sampling	—Unverified
Bootstrapped Thompson Sampling and Deep Exploration	Jul 1, 2015	reinforcement-learningReinforcement Learning	—Unverified
BOTS: Batch Bayesian Optimization of Extended Thompson Sampling for Severely Episode-Limited RL Settings	Nov 30, 2024	Bayesian OptimizationPolicy Gradient Methods	—Unverified
Calibrated Fairness in Bandits	Jul 6, 2017	Decision MakingFairness	—Unverified
A Note on Information-Directed Sampling and Thompson Sampling	Mar 24, 2015	Thompson Sampling	—Unverified
An Unbiased Data Collection and Content Exploitation/Exploration Strategy for Personalization	Apr 12, 2016	Recommendation SystemsThompson Sampling	—Unverified
Causal Bandits without prior knowledge using separating sets	Sep 16, 2020	Causal DiscoveryDecision Making	—Unverified
Chained Information-Theoretic bounds and Tight Regret Rate for Linear Bandit Problems	Mar 5, 2024	Thompson Sampling	—Unverified
Bayesian Quantile and Expectile Optimisation	Jan 12, 2020	Bayesian OptimisationGaussian Processes	—Unverified

Show:10 25 50

← PrevPage 3 of 14Next →

No leaderboard results yet.