SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–260 of 655 papers

Title	Date	Tasks	Status
Risk-averse Contextual Multi-armed Bandit Problem with Linear Payoffs	Jun 24, 2022	Thompson Sampling	—Unverified
Analysis of Thompson Sampling for Controlling Unknown Linear Diffusion Processes	Jun 20, 2022	Decision MakingDecision Making Under Uncertainty	—Unverified
Thompson Sampling for (Combinatorial) Pure Exploration	Jun 18, 2022	Thompson Sampling	—Unverified
Thompson Sampling Achieves O(T) Regret in Linear Quadratic Control	Jun 17, 2022	Decision MakingDecision Making Under Uncertainty	—Unverified
Thompson Sampling for Robust Transfer in Multi-Task Bandits	Jun 17, 2022	Multi-Task LearningThompson Sampling	CodeCode Available
A Contextual Combinatorial Semi-Bandit Approach to Network Bottleneck Identification	Jun 16, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
On Provably Robust Meta-Bayesian Optimization	Jun 14, 2022	Bayesian OptimizationMeta-Learning	CodeCode Available
Top Two Algorithms Revisited	Jun 13, 2022	Thompson SamplingVocal Bursts Valence Prediction	—Unverified
Regret Bounds for Information-Directed Reinforcement Learning	Jun 9, 2022	reinforcement-learningReinforcement Learning	—Unverified
A Simple and Optimal Policy Design with Safety against Heavy-Tailed Risk for Stochastic Bandits	Jun 7, 2022	Multi-Armed BanditsThompson Sampling	—Unverified

Show:10 25 50

← PrevPage 26 of 66Next →

No leaderboard results yet.