SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 371–380 of 655 papers

Title	Date	Tasks	Status
Etat de l'art sur l'application des bandits multi-bras	Jan 4, 2021	Thompson Sampling	—Unverified
Meta-Reinforcement Learning With Informed Policy Regularization	Jan 1, 2021	Meta Reinforcement Learningreinforcement-learning	—Unverified
Learning to Play Imperfect-Information Games by Imitating an Oracle Planner	Dec 22, 2020	Thompson Sampling	CodeCode Available
Aging Bandits: Regret Analysis and Order-Optimal Learning Algorithm for Wireless Networks with Stochastic Arrivals	Dec 16, 2020	Thompson Sampling	—Unverified
Reinforcement Learning with Subspaces using Free Energy Paradigm	Dec 13, 2020	reinforcement-learningReinforcement Learning	—Unverified
Distributed Thompson Sampling	Dec 3, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
On Efficiency in Hierarchical Reinforcement Learning	Dec 1, 2020	Computational EfficiencyDecision Making	—Unverified
Non-Stationary Latent Bandits	Dec 1, 2020	Recommendation SystemsThompson Sampling	—Unverified
Distilled Thompson Sampling: Practical and Efficient Thompson Sampling via Imitation Learning	Nov 29, 2020	Action GenerationDecision Making	—Unverified
Risk-Constrained Thompson Sampling for CVaR Bandits	Nov 16, 2020	Decision MakingThompson Sampling	—Unverified

Show:10 25 50

← PrevPage 38 of 66Next →

No leaderboard results yet.