SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 361–370 of 655 papers

Title	Date	Tasks	Status	Hype
TSEC: a framework for online experimentation under experimental constraints	Jan 17, 2021	Portfolio OptimizationThompson Sampling	—Unverified	0
Deciding What to Learn: A Rate-Distortion Approach	Jan 15, 2021	Decision MakingSequential Decision Making	—Unverified	0
Etat de l'art sur l'application des bandits multi-bras	Jan 4, 2021	Thompson Sampling	—Unverified	0
Meta-Reinforcement Learning With Informed Policy Regularization	Jan 1, 2021	Meta Reinforcement Learningreinforcement-learning	—Unverified	0
Learning to Play Imperfect-Information Games by Imitating an Oracle Planner	Dec 22, 2020	Thompson Sampling	CodeCode Available	0
Aging Bandits: Regret Analysis and Order-Optimal Learning Algorithm for Wireless Networks with Stochastic Arrivals	Dec 16, 2020	Thompson Sampling	—Unverified	0
Mercer Features for Efficient Combinatorial Bayesian Optimization	Dec 14, 2020	Bayesian OptimizationThompson Sampling	CodeCode Available	1
Reinforcement Learning with Subspaces using Free Energy Paradigm	Dec 13, 2020	reinforcement-learningReinforcement Learning	—Unverified	0
Optimal Thompson Sampling strategies for support-aware CVaR bandits	Dec 10, 2020	Thompson Sampling	CodeCode Available	1
Distributed Thompson Sampling	Dec 3, 2020	Multi-Armed BanditsThompson Sampling	—Unverified	0

Show:10 25 50

← PrevPage 37 of 66Next →

No leaderboard results yet.