SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–510 of 655 papers

Title	Date	Tasks	Status
Policy Gradient Optimization of Thompson Sampling Policies	Jun 30, 2020	Policy Gradient MethodsThompson Sampling	—Unverified
Position-Based Multiple-Play Bandits with Thompson Sampling	Sep 28, 2020	PositionRecommendation Systems	—Unverified
Posterior Sampling-Based Bayesian Optimization with Tighter Bayesian Regret Bounds	Nov 7, 2023	Bayesian OptimizationThompson Sampling	—Unverified
Posterior sampling for reinforcement learning: worst-case regret bounds	May 19, 2017	reinforcement-learningReinforcement Learning	—Unverified
Posterior Sampling via Autoregressive Generation	May 29, 2024	ArticlesDecision Making	—Unverified
Practical Adversarial Attacks on Stochastic Bandits via Fake Data Injection	May 28, 2025	Thompson Sampling	—Unverified
Preferential Multi-Objective Bayesian Optimization	Jun 20, 2024	Autonomous DrivingBayesian Optimization	—Unverified
Prior-free and prior-dependent regret bounds for Thompson Sampling	Apr 21, 2013	Thompson Sampling	—Unverified
Probabilistic Inference in Reinforcement Learning Done Right	Nov 22, 2023	reinforcement-learningReinforcement Learning	—Unverified
Profitable Bandits	May 8, 2018	ManagementThompson Sampling	—Unverified

Show:10 25 50

← PrevPage 51 of 66Next →

No leaderboard results yet.