Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 176–200 of 655 papers

Title	Date	Tasks	Status
Augmented RBMLE-UCB Approach for Adaptive Control of Linear Quadratic Systems	Jan 25, 2022	parameter estimationThompson Sampling	—Unverified
Aligning AI Agents via Information-Directed Sampling	Oct 18, 2024	Thompson Sampling	—Unverified
Differentially Private Federated Bayesian Optimization with Distributed Exploration	Oct 27, 2021	Bayesian OptimizationFederated Learning	—Unverified
Delay-Adaptive Learning in Generalized Linear Contextual Bandits	Mar 11, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Deep Hierarchy in Bandits	Feb 3, 2022	Thompson Sampling	—Unverified
Deep Contextual Multi-armed Bandits	Jul 25, 2018	MarketingMulti-Armed Bandits	—Unverified
Asynchronous Multi Agent Active Search	Jun 25, 2020	Bayesian OptimizationCompressive Sensing	—Unverified
Algorithms for Adaptive Experiments that Trade-off Statistical Analysis with Reward: Combining Uniform Random Assignment and Reward Maximization	Dec 15, 2021	Thompson Sampling	—Unverified
Adaptive Combinatorial Allocation	Nov 4, 2020	Thompson Sampling	—Unverified
A Change-Detection Based Thompson Sampling Framework for Non-Stationary Bandits	Sep 6, 2020	Change DetectionThompson Sampling	—Unverified
A Batched Multi-Armed Bandit Approach to News Headline Testing	Aug 17, 2019	ArticlesThompson Sampling	—Unverified
Deep Active Ensemble Sampling For Image Classification	Oct 11, 2022	Active LearningClassification	—Unverified
Deconfounded Warm-Start Thompson Sampling with Applications to Precision Medicine	May 22, 2025	Thompson Sampling	—Unverified
Deciding What to Learn: A Rate-Distortion Approach	Jan 15, 2021	Decision MakingSequential Decision Making	—Unverified
Decentralized Multi-Agent Active Search and Tracking when Targets Outnumber Agents	Jan 6, 2024	Decision MakingThompson Sampling	—Unverified
Asymptotic Performance of Thompson Sampling in the Batched Multi-Armed Bandits	Oct 1, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
Aging Bandits: Regret Analysis and Order-Optimal Learning Algorithm for Wireless Networks with Stochastic Arrivals	Dec 16, 2020	Thompson Sampling	—Unverified
Debiasing Samples from Online Learning Using Bootstrap	Jul 31, 2021	Off-policy evaluationThompson Sampling	—Unverified
Deep Exploration for Recommendation Systems	Sep 26, 2021	Recommendation SystemsThompson Sampling	—Unverified
Asymptotic Convergence of Thompson Sampling	Nov 8, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Customized Nonlinear Bandits for Online Response Selection in Neural Conversation Models	Nov 22, 2017	Multi-Armed BanditsResponse Generation	—Unverified
Cover Tree Bayesian Reinforcement Learning	May 8, 2013	reinforcement-learningReinforcement Learning	—Unverified
The Choice of Noninformative Priors for Thompson Sampling in Multiparameter Bandit Models	Feb 28, 2023	Multi-Armed BanditsThompson Sampling	—Unverified
A General Recipe for the Analysis of Randomized Multi-Armed Bandit Algorithms	Mar 10, 2023	Thompson Sampling	—Unverified
Towards Efficient and Optimal Covariance-Adaptive Algorithms for Combinatorial Semi-Bandits	Feb 23, 2024	Thompson Sampling	—Unverified

Show:10 25 50

← PrevPage 8 of 27Next →

No leaderboard results yet.