SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 21–30 of 655 papers

Title	Date	Tasks	Status	Hype
Langevin Monte Carlo for Contextual Bandits	Jun 22, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available	1
Langevin Soft Actor-Critic: Efficient Exploration through Uncertainty-Driven Critic Learning	Jan 29, 2025	continuous-controlContinuous Control	CodeCode Available	1
Neural Exploitation and Exploration of Contextual Bandits	May 5, 2023	Multi-Armed BanditsThompson Sampling	CodeCode Available	1
Neural Thompson Sampling	Oct 2, 2020	Multi-Armed BanditsThompson Sampling	CodeCode Available	1
Optimizing Posterior Samples for Bayesian Optimization via Rootfinding	Oct 29, 2024	Bayesian Optimizationglobal-optimization	CodeCode Available	1
Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo	May 29, 2023	Efficient Explorationreinforcement-learning	CodeCode Available	1
Sample-Then-Optimize Batch Neural Thompson Sampling	Oct 13, 2022	AutoMLBayesian Optimization	CodeCode Available	1
Adaptive Gating for Single-Photon 3D Imaging	Nov 30, 2021	PositionThompson Sampling	—Unverified	0
A Combinatorial Semi-Bandit Approach to Charging Station Selection for Electric Vehicles	Jan 17, 2023	Combinatorial OptimizationThompson Sampling	—Unverified	0
A Closer Look at the Worst-case Behavior of Multi-armed Bandit Algorithms	Jun 3, 2021	Thompson Sampling	—Unverified	0

Show:10 25 50

← PrevPage 3 of 66Next →

No leaderboard results yet.