SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 171–180 of 655 papers

Title	Date	Tasks	Status
Little Exploration is All You Need	Oct 26, 2023	AllThompson Sampling	—Unverified
Making RL with Preference-based Feedback Efficient via Randomization	Oct 23, 2023	Active LearningThompson Sampling	—Unverified
Parallel Bayesian Optimization Using Satisficing Thompson Sampling for Time-Sensitive Black-Box Optimization	Oct 19, 2023	Bayesian OptimizationSTS	—Unverified
Using Adaptive Bandit Experiments to Increase and Investigate Engagement in Mental Health	Oct 13, 2023	Thompson Sampling	CodeCode Available
Optimal Exploration is no harder than Thompson Sampling	Oct 9, 2023	Thompson Sampling	—Unverified
Module-wise Adaptive Distillation for Multimodality Foundation Models	Oct 6, 2023	Image CaptioningThompson Sampling	—Unverified
Thompson Exploration with Best Challenger Rule in Best Arm Identification	Oct 1, 2023	Thompson Sampling	—Unverified
From Bandits Model to Deep Deterministic Policy Gradient, Reinforcement Learning with Contextual Information	Oct 1, 2023	Decision Makingreinforcement-learning	—Unverified
Monte-Carlo tree search with uncertainty propagation via optimal transport	Sep 19, 2023	Thompson Sampling	—Unverified
Task Selection and Assignment for Multi-modal Multi-task Dialogue Act Classification with Non-stationary Multi-armed Bandits	Sep 18, 2023	Dialogue Act ClassificationMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 18 of 66Next →

No leaderboard results yet.