SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 481–490 of 655 papers

Title	Date	Tasks	Status
Thompson Sampling for the MNL-Bandit	Jun 3, 2017	Thompson Sampling	—Unverified
Thompson Sampling for Unimodal Bandits	Jun 15, 2021	Thompson Sampling	—Unverified
Thompson Sampling for Unsupervised Sequential Selection	Sep 16, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Thompson sampling for zero-inflated count outcomes with an application to the Drink Less mobile health study	Nov 24, 2023	Decision MakingMulti-Armed Bandits	—Unverified
Thompson Sampling Guided Stochastic Searching on the Line for Deceptive Environments with Applications to Root-Finding Problems	Aug 5, 2017	Stochastic OptimizationThompson Sampling	—Unverified
Thompson Sampling in Dynamic Systems for Contextual Bandit Problems	Oct 17, 2013	Thompson Sampling	—Unverified
Thompson Sampling in Non-Episodic Restless Bandits	Oct 12, 2019	Open-Ended Question AnsweringThompson Sampling	—Unverified
Thompson Sampling in Online RLHF with General Function Approximation	May 29, 2025	Thompson Sampling	—Unverified
Thompson Sampling in Partially Observable Contextual Bandits	Feb 15, 2024	Decision MakingDecision Making Under Uncertainty	—Unverified
Thompson Sampling is Asymptotically Optimal in General Environments	Feb 25, 2016	reinforcement-learningReinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 49 of 66Next →

No leaderboard results yet.