SOTAVerified|Agents Browse Leaderboard About Blog

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 655 papers

Title	Date	Tasks	Status
Robust Policy Switching for Antifragile Reinforcement Learning for UAV Deconfliction in Adversarial Environments	Jun 26, 2025	Reinforcement Learning (RL)Thompson Sampling	—Unverified
Context Attribution with Multi-Armed Bandit Optimization	Jun 24, 2025	Thompson Sampling	—Unverified
Adaptive Data Augmentation for Thompson Sampling	Jun 17, 2025	Data AugmentationMulti-Armed Bandits	—Unverified
Bayesian Optimization with Inexact Acquisition: Is Random Grid Search Sufficient?	Jun 13, 2025	Bayesian OptimizationThompson Sampling	—Unverified
Efficient kernelized bandit algorithms via exploration distributions	Jun 11, 2025	Thompson Sampling	—Unverified
Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget	Jun 3, 2025	Thompson Sampling	—Unverified
Simplifying Bayesian Optimization Via In-Context Direct Optimum Sampling	May 29, 2025	Bayesian OptimizationThompson Sampling	—Unverified
Thompson Sampling in Online RLHF with General Function Approximation	May 29, 2025	Thompson Sampling	—Unverified
Stable Thompson Sampling: Valid Inference via Variance Inflation	May 29, 2025	Decision MakingThompson Sampling	—Unverified
Practical Adversarial Attacks on Stochastic Bandits via Fake Data Injection	May 28, 2025	Thompson Sampling	—Unverified

Show:10 25 50

← PrevPage 1 of 66Next →

No leaderboard results yet.