SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–160 of 655 papers

Title	Date	Tasks	Status	Hype
Little Exploration is All You Need	Oct 26, 2023	AllThompson Sampling	—Unverified	0
qPOTS: Efficient batch multiobjective Bayesian optimization via Pareto optimal Thompson sampling	Oct 24, 2023	Bayesian OptimizationComputational Efficiency	CodeCode Available	1
Making RL with Preference-based Feedback Efficient via Randomization	Oct 23, 2023	Active LearningThompson Sampling	—Unverified	0
Parallel Bayesian Optimization Using Satisficing Thompson Sampling for Time-Sensitive Black-Box Optimization	Oct 19, 2023	Bayesian OptimizationSTS	—Unverified	0
Using Adaptive Bandit Experiments to Increase and Investigate Engagement in Mental Health	Oct 13, 2023	Thompson Sampling	CodeCode Available	0
Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining	Oct 12, 2023	In-Context Reinforcement Learningreinforcement-learning	CodeCode Available	1
Optimal Exploration is no harder than Thompson Sampling	Oct 9, 2023	Thompson Sampling	—Unverified	0
Module-wise Adaptive Distillation for Multimodality Foundation Models	Oct 6, 2023	Image CaptioningThompson Sampling	—Unverified	0
Thompson Exploration with Best Challenger Rule in Best Arm Identification	Oct 1, 2023	Thompson Sampling	—Unverified	0
From Bandits Model to Deep Deterministic Policy Gradient, Reinforcement Learning with Contextual Information	Oct 1, 2023	Decision Makingreinforcement-learning	—Unverified	0

Show:10 25 50

← PrevPage 16 of 66Next →

No leaderboard results yet.