Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 576–600 of 655 papers

Title	Date	Tasks	Status
Reinforcement learning techniques for Outer Loop Link Adaptation in 4G/5G systems	Aug 3, 2017	Multi-Armed Banditsreinforcement-learning	—Unverified
Streaming kernel regression with provably adaptive mean, variance, and regularization	Aug 2, 2017	regressionThompson Sampling	—Unverified
Counterfactual Data-Fusion for Online Reinforcement Learners	Aug 1, 2017	counterfactualDecision Making	—Unverified
Taming Non-stationary Bandits: A Bayesian Approach	Jul 31, 2017	Thompson Sampling	—Unverified
Combinatorial Multi-armed Bandit with Probabilistically Triggered Arms: A Case with Bounded Regret	Jul 24, 2017	Movie RecommendationThompson Sampling	—Unverified
Calibrated Fairness in Bandits	Jul 6, 2017	Decision MakingFairness	—Unverified
A Practical Method for Solving Contextual Bandit Problems Using Decision Trees	Jun 14, 2017	Thompson Sampling	—Unverified
Bandit Models of Human Behavior: Reward Processing in Mental Disorders	Jun 7, 2017	Decision MakingThompson Sampling	—Unverified
Parallel and Distributed Thompson Sampling for Large-scale Accelerated Exploration of Chemical Space	Jun 6, 2017	Bayesian OptimizationThompson Sampling	—Unverified
Thompson Sampling for the MNL-Bandit	Jun 3, 2017	Thompson Sampling	—Unverified
Scalable Generalized Linear Bandits: Online Computation and Hashing	Jun 1, 2017	Thompson Sampling	—Unverified
Asynchronous Parallel Bayesian Optimisation via Thompson Sampling	May 25, 2017	Bayesian OptimisationThompson Sampling	CodeCode Available
A Multi-Armed Bandit to Smartly Select a Training Set from Big Medical Data	May 23, 2017	Thompson Sampling	—Unverified
AIXIjs: A Software Demo for General Reinforcement Learning	May 22, 2017	General Reinforcement LearningOpenAI Gym	CodeCode Available
Ensemble Sampling	May 20, 2017	Thompson Sampling	—Unverified
Posterior sampling for reinforcement learning: worst-case regret bounds	May 19, 2017	reinforcement-learningReinforcement Learning	—Unverified
Adaptive Rate of Convergence of Thompson Sampling for Gaussian Process Optimization	May 18, 2017	global-optimizationThompson Sampling	—Unverified
Context Attentive Bandits: Contextual Bandit with Restricted Context	May 10, 2017	Recommendation SystemsThompson Sampling	—Unverified
Multi-dueling Bandits with Dependent Arms	Apr 29, 2017	Thompson Sampling	—Unverified
Mostly Exploration-Free Algorithms for Contextual Bandits	Apr 28, 2017	DiversityMulti-Armed Bandits	CodeCode Available
Time-Sensitive Bandit Learning and Satisficing Thompson Sampling	Apr 28, 2017	Thompson Sampling	—Unverified
Efficient Benchmarking of NLP APIs using Multi-armed Bandits	Apr 1, 2017	BenchmarkingMulti-Armed Bandits	—Unverified
Thompson Sampling for Linear-Quadratic Control Problems	Mar 27, 2017	Reinforcement LearningThompson Sampling	—Unverified
Horde of Bandits using Gaussian Markov Random Fields	Mar 7, 2017	ClusteringMulti-Armed Bandits	—Unverified
QoS-Aware Multi-Armed Bandits	Feb 28, 2017	Decision MakingMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 24 of 27Next →

No leaderboard results yet.