SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–510 of 655 papers

Title	Date	Tasks	Status
Sampling Acquisition Functions for Batch Bayesian Optimization	Mar 22, 2019	Bayesian OptimizationThompson Sampling	—Unverified
On Multi-Armed Bandit Designs for Dose-Finding Clinical Trials	Mar 17, 2019	Thompson Sampling	—Unverified
Sample-Efficient Model-Free Reinforcement Learning with Off-Policy Critics	Mar 11, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Meta Dynamic Pricing: Transfer Learning Across Experiments	Feb 28, 2019	Thompson SamplingTransfer Learning	—Unverified
Constrained Thompson Sampling for Wireless Link Optimization	Feb 28, 2019	Thompson Sampling	—Unverified
Fully Distributed Bayesian Optimization with Stochastic Policies	Feb 26, 2019	Bayesian OptimizationThompson Sampling	—Unverified
Multi-Armed Bandit Strategies for Non-Stationary Reward Distributions and Delayed Feedback Processes	Feb 22, 2019	Thompson Sampling	—Unverified
Scalable Thompson Sampling via Optimal Transport	Feb 19, 2019	Decision MakingSequential Decision Making	—Unverified
Thompson Sampling with Information Relaxation Penalties	Feb 12, 2019	Thompson Sampling	CodeCode Available
KLUCB Approach to Copeland Bandits	Feb 7, 2019	Information RetrievalReinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 51 of 66Next →

No leaderboard results yet.