SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 361–370 of 655 papers

Title	Date	Tasks	Status
Parallel Bayesian Optimization Using Satisficing Thompson Sampling for Time-Sensitive Black-Box Optimization	Oct 19, 2023	Bayesian OptimizationSTS	—Unverified
Parallel Contextual Bandits in Wireless Handover Optimization	Jan 21, 2019	Multi-Armed BanditsThompson Sampling	—Unverified
Parallelizing Thompson Sampling	Jun 2, 2021	Decision MakingThompson Sampling	—Unverified
Partial Likelihood Thompson Sampling	Mar 2, 2022	Thompson Sampling	—Unverified
Partially Observable Contextual Bandits with Linear Payoffs	Sep 17, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Partially Observable Online Change Detection via Smooth-Sparse Decomposition	Sep 22, 2020	Bayesian InferenceChange Detection	—Unverified
PG-TS: Improved Thompson Sampling for Logistic Contextual Bandits	May 18, 2018	Multi-Armed BanditsThompson Sampling	—Unverified
Planning and Learning in Risk-Aware Restless Multi-Arm Bandit Problem	Oct 30, 2024	SchedulingThompson Sampling	—Unverified
Policy Gradient Optimization of Thompson Sampling Policies	Jun 30, 2020	Policy Gradient MethodsThompson Sampling	—Unverified
Position-Based Multiple-Play Bandits with Thompson Sampling	Sep 28, 2020	PositionRecommendation Systems	—Unverified

Show:10 25 50

← PrevPage 37 of 66Next →

No leaderboard results yet.