SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 391–400 of 655 papers

Title	Date	Tasks	Status
Sub-sampling for Efficient Non-Parametric Bandit Exploration	Oct 27, 2020	Thompson Sampling	CodeCode Available
Improved Worst-Case Regret Bounds for Randomized Least-Squares Value Iteration	Oct 23, 2020	reinforcement-learningReinforcement Learning	—Unverified
Bayesian Algorithms for Decentralized Stochastic Bandits	Oct 20, 2020	Thompson Sampling	CodeCode Available
Reinforcement Learning for Efficient and Tuning-Free Link Adaptation	Oct 16, 2020	reinforcement-learningReinforcement Learning	—Unverified
Double-Linear Thompson Sampling for Context-Attentive Bandits	Oct 15, 2020	Medical DiagnosisThompson Sampling	—Unverified
Asynchronous ε-Greedy Bayesian Optimisation	Oct 15, 2020	Bayesian OptimisationThompson Sampling	CodeCode Available
Online Learning and Distributed Control for Residential Demand Response	Oct 11, 2020	Stochastic OptimizationThompson Sampling	—Unverified
Effects of Model Misspecification on Bayesian Bandits: Case Studies in UX Optimization	Oct 7, 2020	Thompson Sampling	—Unverified
Stage-wise Conservative Linear Bandits	Sep 30, 2020	FormThompson Sampling	—Unverified
Neural Model-based Optimization with Right-Censored Observations	Sep 29, 2020	modelregression	—Unverified

Show:10 25 50

← PrevPage 40 of 66Next →

No leaderboard results yet.