SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 141–150 of 655 papers

Title	Date	Tasks	Status
Better Optimism By Bayes: Adaptive Planning with Rich Models	Feb 9, 2014	Model-based Reinforcement LearningReinforcement Learning	—Unverified
Blind Exploration and Exploitation of Stochastic Experts	Apr 2, 2021	Thompson Sampling	—Unverified
Bootstrapped Thompson Sampling and Deep Exploration	Jul 1, 2015	reinforcement-learningReinforcement Learning	—Unverified
BOTS: Batch Bayesian Optimization of Extended Thompson Sampling for Severely Episode-Limited RL Settings	Nov 30, 2024	Bayesian OptimizationPolicy Gradient Methods	—Unverified
Calibrated Fairness in Bandits	Jul 6, 2017	Decision MakingFairness	—Unverified
A Note on Information-Directed Sampling and Thompson Sampling	Mar 24, 2015	Thompson Sampling	—Unverified
An Unbiased Data Collection and Content Exploitation/Exploration Strategy for Personalization	Apr 12, 2016	Recommendation SystemsThompson Sampling	—Unverified
Causal Bandits without prior knowledge using separating sets	Sep 16, 2020	Causal DiscoveryDecision Making	—Unverified
Chained Information-Theoretic bounds and Tight Regret Rate for Linear Bandit Problems	Mar 5, 2024	Thompson Sampling	—Unverified
Bayesian Quantile and Expectile Optimisation	Jan 12, 2020	Bayesian OptimisationGaussian Processes	—Unverified

Show:10 25 50

← PrevPage 15 of 66Next →

No leaderboard results yet.