SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 391–400 of 655 papers

Title	Date	Tasks	Status
Reinforcement learning techniques for Outer Loop Link Adaptation in 4G/5G systems	Aug 3, 2017	Multi-Armed Banditsreinforcement-learning	—Unverified
Reinforcement Learning with Subspaces using Free Energy Paradigm	Dec 13, 2020	reinforcement-learningReinforcement Learning	—Unverified
Reinforcement Learning with Trajectory Feedback	Aug 13, 2020	reinforcement-learningReinforcement Learning	—Unverified
Remote Contextual Bandits	Feb 10, 2022	MarketingMulti-Armed Bandits	—Unverified
Residual Bootstrap Exploration for Bandit Algorithms	Feb 19, 2020	Computational EfficiencyMulti-Armed Bandits	—Unverified
Revised Progressive-Hedging-Algorithm Based Two-layer Solution Scheme for Bayesian Reinforcement Learning	Jun 21, 2019	Reinforcement LearningReinforcement Learning (RL)	—Unverified
Reward Biased Maximum Likelihood Estimation for Reinforcement Learning	Nov 16, 2020	Multi-Armed Banditsreinforcement-learning	—Unverified
Risk and optimal policies in bandit experiments	Dec 13, 2021	Dimensionality ReductionThompson Sampling	—Unverified
Risk-averse Contextual Multi-armed Bandit Problem with Linear Payoffs	Jun 24, 2022	Thompson Sampling	—Unverified
Risk-Constrained Thompson Sampling for CVaR Bandits	Nov 16, 2020	Decision MakingThompson Sampling	—Unverified

Show:10 25 50

← PrevPage 40 of 66Next →

No leaderboard results yet.