SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–410 of 655 papers

Title	Date	Tasks	Status
Learning by Repetition: Stochastic Multi-armed Bandits under Priming Effect	Jun 18, 2020	Decision MakingMulti-Armed Bandits	—Unverified
Sample Efficient Learning of Factored Embeddings of Tensor Fields	Sep 1, 2022	Recommendation SystemsThompson Sampling	—Unverified
Learning How to Infer Partial MDPs for In-Context Adaptation and Exploration	Feb 8, 2023	Bayesian InferenceThompson Sampling	—Unverified
Learning to Optimize Via Posterior Sampling	Jan 11, 2013	Thompson Sampling	—Unverified
Learning to Price with Reference Effects	Aug 29, 2017	Reinforcement LearningThompson Sampling	—Unverified
Learning to Rank in the Position Based Model with Bandit Feedback	Apr 27, 2020	Learning-To-RankMulti-Armed Bandits	—Unverified
Learning Unknown Markov Decision Processes: A Thompson Sampling Approach	Sep 14, 2017	Reinforcement LearningThompson Sampling	—Unverified
Lenient Regret for Multi-Armed Bandits	Aug 10, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Leveraging Demonstrations to Improve Online Learning: Quality Matters	Feb 7, 2023	Thompson Sampling	—Unverified
Leveraging Offline Data from Similar Systems for Online Linear Quadratic Control	May 14, 2025	Thompson Sampling	—Unverified

Show:10 25 50

← PrevPage 41 of 66Next →

No leaderboard results yet.