SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 221–230 of 655 papers

Title	Date	Tasks	Status
Asymptotically Optimal Bandits under Weighted Information	May 28, 2021	Thompson Sampling	—Unverified
A General Theory of the Stochastic Linear Bandit and Its Applications	Feb 12, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Effects of Model Misspecification on Bayesian Bandits: Case Studies in UX Optimization	Oct 7, 2020	Thompson Sampling	—Unverified
Efficient and Adaptive Posterior Sampling Algorithms for Bandits	May 2, 2024	Thompson Sampling	—Unverified
Efficient Benchmarking of NLP APIs using Multi-armed Bandits	Apr 1, 2017	BenchmarkingMulti-Armed Bandits	—Unverified
Efficient Exploration for LLMs	Feb 1, 2024	Efficient ExplorationThompson Sampling	—Unverified
Efficient exploration of zero-sum stochastic games	Feb 24, 2020	Efficient ExplorationThompson Sampling	—Unverified
Cost-efficient Knowledge-based Question Answering with Large Language Models	May 27, 2024	Knowledge GraphsModel Selection	—Unverified
Efficient exploration with Double Uncertain Value Networks	Nov 29, 2017	Efficient ExplorationReinforcement Learning	—Unverified
Cost Aware Asynchronous Multi-Agent Active Search	Oct 5, 2022	Decision MakingThompson Sampling	—Unverified

Show:10 25 50

← PrevPage 23 of 66Next →

No leaderboard results yet.