SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 271–280 of 655 papers

Title	Date	Tasks	Status
Adjusted Expected Improvement for Cumulative Regret Minimization in Noisy Bayesian Optimization	May 10, 2022	Bayesian OptimizationThompson Sampling	—Unverified
Active Search for High Recall: a Non-Stationary Extension of Thompson Sampling	Dec 27, 2017	Multi-Armed BanditsThompson Sampling	—Unverified
Context Attentive Bandits: Contextual Bandit with Restricted Context	May 10, 2017	Recommendation SystemsThompson Sampling	—Unverified
A relaxed technical assumption for posterior sampling-based reinforcement learning for control of unknown linear systems	Aug 19, 2021	Thompson Sampling	—Unverified
Constrained Thompson Sampling for Wireless Link Optimization	Feb 28, 2019	Thompson Sampling	—Unverified
A Reinforcement Learning based Reset Policy for CDCL SAT Solvers	Apr 4, 2024	reinforcement-learningReinforcement Learning	—Unverified
Constrained Thompson Sampling for Real-Time Electricity Pricing with Grid Reliability Constraints	Jun 17, 2020	Thompson Sampling	—Unverified
Constrained Contextual Bandit Learning for Adaptive Radar Waveform Selection	Mar 9, 2021	Thompson Sampling	—Unverified
Efficiently Tackling Million-Dimensional Multiobjective Problems: A Direction Sampling and Fine-Tuning Approach	Apr 8, 2023	Multiobjective OptimizationRecommendation Systems	—Unverified
Connections Between Mirror Descent, Thompson Sampling and the Information Ratio	May 28, 2019	Thompson Sampling	—Unverified

Show:10 25 50

← PrevPage 28 of 66Next →

No leaderboard results yet.