SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 141–150 of 655 papers

Title	Date	Tasks	Status
Influencing Bandits: Arm Selection for Preference Shaping	Feb 29, 2024	Recommendation SystemsThompson Sampling	—Unverified
Towards Efficient and Optimal Covariance-Adaptive Algorithms for Combinatorial Semi-Bandits	Feb 23, 2024	Thompson Sampling	—Unverified
Optimizing Adaptive Experiments: A Unified Approach to Regret Minimization and Best-Arm Identification	Feb 16, 2024	Thompson Sampling	—Unverified
Thompson Sampling in Partially Observable Contextual Bandits	Feb 15, 2024	Decision MakingDecision Making Under Uncertainty	—Unverified
Diffusion Models Meet Contextual Bandits with Large Action Spaces	Feb 15, 2024	Efficient ExplorationMulti-Armed Bandits	—Unverified
Tree Ensembles for Contextual Bandits	Feb 10, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Context in Public Health for Underserved Communities: A Bayesian Approach to Online Restless Bandits	Feb 7, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Optimistic Thompson Sampling for No-Regret Learning in Unknown Games	Feb 7, 2024	Decision MakingThompson Sampling	—Unverified
Efficient Exploration for LLMs	Feb 1, 2024	Efficient ExplorationThompson Sampling	—Unverified
Accelerating Approximate Thompson Sampling with Underdamped Langevin Monte Carlo	Jan 22, 2024	Thompson Sampling	CodeCode Available

Show:10 25 50

← PrevPage 15 of 66Next →

No leaderboard results yet.