SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 381–390 of 655 papers

Title	Date	Tasks	Status
Random Effect Bandits	Jun 23, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
Random Hypervolume Scalarizations for Provable Multi-Objective Black Box Optimization	Jun 8, 2020	Bayesian OptimizationThompson Sampling	—Unverified
Randomised Bayesian Least-Squares Policy Iteration	Apr 6, 2019	Thompson Sampling	—Unverified
Randomized Exploration in Cooperative Multi-Agent Reinforcement Learning	Apr 16, 2024	Federated LearningMulti-agent Reinforcement Learning	—Unverified
Regenerative Particle Thompson Sampling	Mar 15, 2022	Thompson Sampling	—Unverified
Regret Analysis of Bandit Problems with Causal Background Knowledge	Oct 11, 2019	Thompson Sampling	—Unverified
Regret Analysis of the Finite-Horizon Gittins Index Strategy for Multi-Armed Bandits	Nov 18, 2015	Multi-Armed BanditsThompson Sampling	—Unverified
Regret Bounds for Information-Directed Reinforcement Learning	Jun 9, 2022	reinforcement-learningReinforcement Learning	—Unverified
Regularized-OFU: an efficient algorithm for general contextual bandit with optimization oracles	Sep 29, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
Reinforcement Learning for Efficient and Tuning-Free Link Adaptation	Oct 16, 2020	reinforcement-learningReinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 39 of 66Next →

No leaderboard results yet.