SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 261–270 of 655 papers

Title	Date	Tasks	Status
On Kernelized Multi-Armed Bandits with Constraints	Mar 29, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Multi-armed bandits for resource efficient, online optimization of language model pre-training: the use case of dynamic masking	Mar 24, 2022	Bayesian OptimizationDecision Making	CodeCode Available
Thompson Sampling on Asymmetric α-Stable Bandits	Mar 19, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Regenerative Particle Thompson Sampling	Mar 15, 2022	Thompson Sampling	—Unverified
Multi-Agent Active Search using Detection and Location Uncertainty	Mar 9, 2022	Decision MakingDisaster Response	—Unverified
An Analysis of Ensemble Sampling	Mar 2, 2022	Thompson Sampling	—Unverified
Scalable Bayesian Optimization Using Vecchia Approximations of Gaussian Processes	Mar 2, 2022	Bayesian OptimizationGaussian Processes	CodeCode Available
Partial Likelihood Thompson Sampling	Mar 2, 2022	Thompson Sampling	—Unverified
Towards Scalable and Robust Structured Bandits: A Meta-Learning Framework	Feb 26, 2022	Meta-LearningThompson Sampling	—Unverified
Thompson Sampling with Unrestricted Delays	Feb 24, 2022	Thompson Sampling	—Unverified

Show:10 25 50

← PrevPage 27 of 66Next →

No leaderboard results yet.