SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 571–580 of 655 papers

Title	Date	Tasks	Status
Bayesian bandits: balancing the exploration-exploitation tradeoff via double sampling	Sep 10, 2017	Reinforcement LearningThompson Sampling	CodeCode Available
Variational inference for the multi-armed contextual bandit	Sep 10, 2017	Multi-Armed BanditsReinforcement Learning	CodeCode Available
Learning to Price with Reference Effects	Aug 29, 2017	Reinforcement LearningThompson Sampling	—Unverified
Racing Thompson: an Efficient Algorithm for Thompson Sampling with Non-conjugate Priors	Aug 16, 2017	Thompson Sampling	—Unverified
Thompson Sampling Guided Stochastic Searching on the Line for Deceptive Environments with Applications to Root-Finding Problems	Aug 5, 2017	Stochastic OptimizationThompson Sampling	—Unverified
Reinforcement learning techniques for Outer Loop Link Adaptation in 4G/5G systems	Aug 3, 2017	Multi-Armed Banditsreinforcement-learning	—Unverified
Streaming kernel regression with provably adaptive mean, variance, and regularization	Aug 2, 2017	regressionThompson Sampling	—Unverified
Counterfactual Data-Fusion for Online Reinforcement Learners	Aug 1, 2017	counterfactualDecision Making	—Unverified
Taming Non-stationary Bandits: A Bayesian Approach	Jul 31, 2017	Thompson Sampling	—Unverified
Combinatorial Multi-armed Bandit with Probabilistically Triggered Arms: A Case with Bounded Regret	Jul 24, 2017	Movie RecommendationThompson Sampling	—Unverified

Show:10 25 50

← PrevPage 58 of 66Next →

No leaderboard results yet.