Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 576–600 of 655 papers

Title	Date	Tasks	Status
Queueing Matching Bandits with Preference Feedback	Oct 14, 2024	Thompson Sampling	CodeCode Available
Scalable Bayesian Optimization Using Vecchia Approximations of Gaussian Processes	Mar 2, 2022	Bayesian OptimizationGaussian Processes	CodeCode Available
On Provably Robust Meta-Bayesian Optimization	Jun 14, 2022	Bayesian OptimizationMeta-Learning	CodeCode Available
Multi-Agent Thompson Sampling for Bandit Applications with Sparse Neighbourhood Structures	Nov 22, 2019	Thompson Sampling	CodeCode Available
Bandit-Based Prompt Design Strategy Selection Improves Prompt Optimizers	Mar 3, 2025	Prompt EngineeringThompson Sampling	CodeCode Available
Atlas: Automate Online Service Configuration in Network Slicing	Oct 30, 2022	Bayesian OptimizationSafe Exploration	CodeCode Available
Scalable Optimization for Wind Farm Control using Coordination Graphs	Jan 19, 2021	Thompson Sampling	CodeCode Available
Variational inference for the multi-armed contextual bandit	Sep 10, 2017	Multi-Armed BanditsReinforcement Learning	CodeCode Available
Cost-Efficient Online Decision Making: A Combinatorial Multi-Armed Bandit Approach	Aug 21, 2023	Decision MakingMulti-Armed Bandits	CodeCode Available
Mixed-Effect Thompson Sampling	May 30, 2022	Thompson Sampling	CodeCode Available
On the Suboptimality of Thompson Sampling in High Dimensions	Feb 10, 2021	Thompson SamplingVocal Bursts Intensity Prediction	CodeCode Available
Randomized Value Functions via Multiplicative Normalizing Flows	Jun 6, 2018	Efficient ExplorationThompson Sampling	CodeCode Available
Minimum Empirical Divergence for Sub-Gaussian Linear Bandits	Oct 31, 2024	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Ranking In Generalized Linear Bandits	Jun 30, 2022	DiversityMulti-Armed Bandits	CodeCode Available
RoME: A Robust Mixed-Effects Bandit Algorithm for Optimizing Mobile Health Interventions	Dec 11, 2023	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Thompson Sampling for High-Dimensional Sparse Linear Contextual Bandits	Nov 11, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available
Using Adaptive Bandit Experiments to Increase and Investigate Engagement in Mental Health	Oct 13, 2023	Thompson Sampling	CodeCode Available
Sub-sampling for Efficient Non-Parametric Bandit Exploration	Oct 27, 2020	Thompson Sampling	CodeCode Available
Information-Directed Selection for Top-Two Algorithms	May 24, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available
Thompson Sampling for a Fatigue-aware Online Recommendation System	Jan 23, 2019	Thompson Sampling	CodeCode Available
Bayesian Optimization for Categorical and Category-Specific Continuous Inputs	Nov 28, 2019	Bayesian OptimizationBIG-bench Machine Learning	CodeCode Available
Deep Bayesian Bandits Showdown: An Empirical Comparison of Bayesian Deep Networks for Thompson Sampling	Feb 26, 2018	Decision MakingDeep Reinforcement Learning	CodeCode Available
Regret Bounds for Thompson Sampling in Episodic Restless Bandit Problems	May 29, 2019	Multi-Armed BanditsThompson Sampling	CodeCode Available
More Efficient Randomized Exploration for Reinforcement Learning via Approximate Sampling	Jun 18, 2024	reinforcement-learningReinforcement Learning	CodeCode Available
Mostly Exploration-Free Algorithms for Contextual Bandits	Apr 28, 2017	DiversityMulti-Armed Bandits	CodeCode Available

Show:10 25 50

← PrevPage 24 of 27Next →

No leaderboard results yet.