SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 321–330 of 655 papers

Title	Date	Tasks	Status
Non-Stationary Latent Bandits	Dec 1, 2020	Recommendation SystemsThompson Sampling	—Unverified
No Regrets for Learning the Prior in Bandits	Jul 13, 2021	Thompson Sampling	—Unverified
Observation-Free Attacks on Stochastic Bandits	Dec 1, 2021	Thompson Sampling	—Unverified
On Adaptive Estimation for Dynamic Bernoulli Bandits	Dec 8, 2017	Thompson Sampling	—Unverified
On Batch Bayesian Optimization	Nov 4, 2019	Bayesian OptimizationThompson Sampling	—Unverified
On Dynamic Pricing with Covariates	Dec 25, 2021	Thompson Sampling	—Unverified
On Efficiency in Hierarchical Reinforcement Learning	Dec 1, 2020	Computational EfficiencyDecision Making	—Unverified
On Improved Regret Bounds In Bayesian Optimization with Gaussian Noise	Dec 25, 2024	Bayesian OptimizationThompson Sampling	—Unverified
On Kernelized Multi-Armed Bandits with Constraints	Mar 29, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
On learning Whittle index policy for restless bandits with scalable regret	Feb 7, 2022	SchedulingThompson Sampling	—Unverified

Show:10 25 50

← PrevPage 33 of 66Next →

No leaderboard results yet.