Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 655 papers

Title	Date	Tasks	Status
An Analysis of Ensemble Sampling	Mar 2, 2022	Thompson Sampling	—Unverified
Batch Bayesian Optimization for Replicable Experimental Design	Nov 2, 2023	AutoMLBayesian Optimization	—Unverified
Analyzing and Enhancing Queue Sampling for Energy-Efficient Remote Control of Bandits	May 15, 2024	Autonomous VehiclesThompson Sampling	—Unverified
Bandit Theory and Thompson Sampling-Guided Directed Evolution for Sequence Optimization	Jun 5, 2022	BIG-bench Machine LearningEvolutionary Algorithms	—Unverified
Bandits Under The Influence (Extended Version)	Sep 21, 2020	Recommendation SystemsThompson Sampling	—Unverified
Analysis of Thompson Sampling for Partially Observable Contextual Multi-Armed Bandits	Oct 23, 2021	Decision MakingMulti-Armed Bandits	—Unverified
Bandit Policies for Reliable Cellular Network Handovers in Extreme Mobility	Oct 28, 2020	Thompson Sampling	—Unverified
Bandit Models of Human Behavior: Reward Processing in Mental Disorders	Jun 7, 2017	Decision MakingThompson Sampling	—Unverified
Analysis of Thompson Sampling for Graphical Bandits Without the Graphs	May 23, 2018	Thompson Sampling	—Unverified
Adaptive Exploration-Exploitation Tradeoff for Opportunistic Bandits	Sep 12, 2017	Thompson Sampling	—Unverified
A Closer Look at the Worst-case Behavior of Multi-armed Bandit Algorithms	Jun 3, 2021	Thompson Sampling	—Unverified
Context in Public Health for Underserved Communities: A Bayesian Approach to Online Restless Bandits	Feb 7, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Bandit Learning for Diversified Interactive Recommendation	Jul 1, 2019	Bayesian InferenceDiversity	—Unverified
Adaptive Rate of Convergence of Thompson Sampling for Gaussian Process Optimization	May 18, 2017	global-optimizationThompson Sampling	—Unverified
Bandit Convex Optimization: sqrtT Regret in One Dimension	Feb 23, 2015	Thompson Sampling	—Unverified
Bandit Change-Point Detection for Real-Time Monitoring High-Dimensional Data Under Sampling Control	Sep 24, 2020	Change Point DetectionComputational Efficiency	—Unverified
Analysis of Thompson Sampling for Combinatorial Multi-armed Bandit with Probabilistically Triggered Arms	Sep 7, 2018	Thompson Sampling	—Unverified
Adaptive Experimentation at Scale: A Computational Framework for Flexible Batches	Mar 21, 2023	BenchmarkingThompson Sampling	—Unverified
BanditCAT and AutoIRT: Machine Learning Approaches to Computerized Adaptive Testing and Item Calibration	Oct 28, 2024	AutoMLThompson Sampling	—Unverified
Bag of Policies for Distributional Deep Exploration	Aug 3, 2023	Atari GamesEfficient Exploration	—Unverified
Analysis and Design of Thompson Sampling for Stochastic Partial Monitoring	Jun 17, 2020	Decision MakingThompson Sampling	—Unverified
AutoSeM: Automatic Task Selection and Mixing in Multi-Task Learning	Apr 8, 2019	Bayesian OptimizationInductive Bias	—Unverified
Automatic Ensemble Learning for Online Influence Maximization	Nov 25, 2019	Ensemble LearningMulti-Armed Bandits	—Unverified
An Adversarial Analysis of Thompson Sampling for Full-information Online Learning: from Finite to Infinite Action Spaces	Feb 20, 2025	Bayesian OptimizationThompson Sampling	—Unverified
Adaptive Data Augmentation for Thompson Sampling	Jun 17, 2025	Data AugmentationMulti-Armed Bandits	—Unverified
Achieving adaptivity and optimality for multi-armed bandits using Exponential-Kullback Leibler Maillard Sampling	Feb 20, 2025	Multi-Armed BanditsThompson Sampling	—Unverified
A Multi-Armed Bandit to Smartly Select a Training Set from Big Medical Data	May 23, 2017	Thompson Sampling	—Unverified
A Unified and Efficient Coordinating Framework for Autonomous DBMS Tuning	Mar 10, 2023	Thompson Sampling	—Unverified
Diffusion Approximations for Thompson Sampling	May 19, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
Augmented RBMLE-UCB Approach for Adaptive Control of Linear Quadratic Systems	Jan 25, 2022	parameter estimationThompson Sampling	—Unverified
Aligning AI Agents via Information-Directed Sampling	Oct 18, 2024	Thompson Sampling	—Unverified
Differentially Private Federated Bayesian Optimization with Distributed Exploration	Oct 27, 2021	Bayesian OptimizationFederated Learning	—Unverified
Delay-Adaptive Learning in Generalized Linear Contextual Bandits	Mar 11, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Deep Hierarchy in Bandits	Feb 3, 2022	Thompson Sampling	—Unverified
Deep Contextual Multi-armed Bandits	Jul 25, 2018	MarketingMulti-Armed Bandits	—Unverified
Asynchronous Multi Agent Active Search	Jun 25, 2020	Bayesian OptimizationCompressive Sensing	—Unverified
Algorithms for Adaptive Experiments that Trade-off Statistical Analysis with Reward: Combining Uniform Random Assignment and Reward Maximization	Dec 15, 2021	Thompson Sampling	—Unverified
Adaptive Combinatorial Allocation	Nov 4, 2020	Thompson Sampling	—Unverified
A Change-Detection Based Thompson Sampling Framework for Non-Stationary Bandits	Sep 6, 2020	Change DetectionThompson Sampling	—Unverified
A Batched Multi-Armed Bandit Approach to News Headline Testing	Aug 17, 2019	ArticlesThompson Sampling	—Unverified
Deep Active Ensemble Sampling For Image Classification	Oct 11, 2022	Active LearningClassification	—Unverified
Deconfounded Warm-Start Thompson Sampling with Applications to Precision Medicine	May 22, 2025	Thompson Sampling	—Unverified
Deciding What to Learn: A Rate-Distortion Approach	Jan 15, 2021	Decision MakingSequential Decision Making	—Unverified
Deep Exploration for Recommendation Systems	Sep 26, 2021	Recommendation SystemsThompson Sampling	—Unverified
Decentralized Multi-Agent Active Search and Tracking when Targets Outnumber Agents	Jan 6, 2024	Decision MakingThompson Sampling	—Unverified
Asymptotic Performance of Thompson Sampling in the Batched Multi-Armed Bandits	Oct 1, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
Aging Bandits: Regret Analysis and Order-Optimal Learning Algorithm for Wireless Networks with Stochastic Arrivals	Dec 16, 2020	Thompson Sampling	—Unverified
Debiasing Samples from Online Learning Using Bootstrap	Jul 31, 2021	Off-policy evaluationThompson Sampling	—Unverified
Asymptotic Convergence of Thompson Sampling	Nov 8, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Customized Nonlinear Bandits for Online Response Selection in Neural Conversation Models	Nov 22, 2017	Multi-Armed BanditsResponse Generation	—Unverified

Show:10 25 50

← PrevPage 4 of 14Next →

No leaderboard results yet.