SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 61–70 of 655 papers

Title	Date	Tasks	Status	Hype
Batched Bayesian optimization by maximizing the probability of including the optimum	Oct 8, 2024	Bayesian OptimizationDiversity	CodeCode Available	1
Thompson Sampling For Combinatorial Bandits: Polynomial Regret and Mismatched Sampling Paradox	Oct 7, 2024	Thompson Sampling	CodeCode Available	0
Efficient Model-Based Reinforcement Learning Through Optimistic Thompson Sampling	Oct 7, 2024	continuous-controlContinuous Control	—Unverified	0
Improving Portfolio Optimization Results with Bandit Networks	Oct 5, 2024	Portfolio OptimizationRecommendation Systems	CodeCode Available	0
Partially Observable Contextual Bandits with Linear Payoffs	Sep 17, 2024	Decision MakingMulti-Armed Bandits	—Unverified	0
Modified Meta-Thompson Sampling for Linear Bandits and Its Bayes Regret Analysis	Sep 10, 2024	Meta-LearningMulti-Armed Bandits	—Unverified	0
Sliding-Window Thompson Sampling for Non-Stationary Settings	Sep 8, 2024	Decision MakingSequential Decision Making	—Unverified	0
Multi-Task Combinatorial Bandits for Budget Allocation	Aug 31, 2024	Gaussian ProcessesMarketing	—Unverified	0
An Extremely Data-efficient and Generative LLM-based Reinforcement Learning Agent for Recommenders	Aug 28, 2024	Recommendation SystemsThompson Sampling	—Unverified	0
Improving Thompson Sampling via Information Relaxation for Budgeted Multi-armed Bandits	Aug 28, 2024	Multi-Armed BanditsThompson Sampling	—Unverified	0

Show:10 25 50

← PrevPage 7 of 66Next →

No leaderboard results yet.