SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 371–380 of 655 papers

Title	Date	Tasks	Status
Posterior Sampling-Based Bayesian Optimization with Tighter Bayesian Regret Bounds	Nov 7, 2023	Bayesian OptimizationThompson Sampling	—Unverified
Posterior sampling for reinforcement learning: worst-case regret bounds	May 19, 2017	reinforcement-learningReinforcement Learning	—Unverified
Posterior Sampling via Autoregressive Generation	May 29, 2024	ArticlesDecision Making	—Unverified
Practical Adversarial Attacks on Stochastic Bandits via Fake Data Injection	May 28, 2025	Thompson Sampling	—Unverified
Preferential Multi-Objective Bayesian Optimization	Jun 20, 2024	Autonomous DrivingBayesian Optimization	—Unverified
Prior-free and prior-dependent regret bounds for Thompson Sampling	Apr 21, 2013	Thompson Sampling	—Unverified
Probabilistic Inference in Reinforcement Learning Done Right	Nov 22, 2023	reinforcement-learningReinforcement Learning	—Unverified
Profitable Bandits	May 8, 2018	ManagementThompson Sampling	—Unverified
QoS-Aware Multi-Armed Bandits	Feb 28, 2017	Decision MakingMulti-Armed Bandits	—Unverified
Racing Thompson: an Efficient Algorithm for Thompson Sampling with Non-conjugate Priors	Aug 16, 2017	Thompson Sampling	—Unverified

Show:10 25 50

← PrevPage 38 of 66Next →

No leaderboard results yet.