Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–475 of 655 papers

Title	Date	Tasks	Status
Making Sense of Reinforcement Learning and Probabilistic Inference	Jan 3, 2020	reinforcement-learningReinforcement Learning	—Unverified
Randomized Exploration for Non-Stationary Stochastic Linear Bandits	Dec 11, 2019	Computational EfficiencyThompson Sampling	CodeCode Available
Solving Bernoulli Rank-One Bandits with Unimodal Thompson Sampling	Dec 6, 2019	Thompson Sampling	—Unverified
Ordinal Bayesian Optimisation	Dec 5, 2019	Bayesian OptimisationThompson Sampling	—Unverified
Thompson Sampling and Approximate Inference	Dec 1, 2019	Decision MakingThompson Sampling	—Unverified
Thompson Sampling for Multinomial Logit Contextual Bandits	Dec 1, 2019	Multi-Armed BanditsThompson Sampling	CodeCode Available
Bayesian Optimization for Categorical and Category-Specific Continuous Inputs	Nov 28, 2019	Bayesian OptimizationBIG-bench Machine Learning	CodeCode Available
Automatic Ensemble Learning for Online Influence Maximization	Nov 25, 2019	Ensemble LearningMulti-Armed Bandits	—Unverified
Multi-Agent Thompson Sampling for Bandit Applications with Sparse Neighbourhood Structures	Nov 22, 2019	Thompson Sampling	CodeCode Available
Information-Theoretic Confidence Bounds for Reinforcement Learning	Nov 21, 2019	reinforcement-learningReinforcement Learning	—Unverified
Adaptive Portfolio by Solving Multi-armed Bandit via Thompson Sampling	Nov 13, 2019	Decision MakingManagement	—Unverified
Incentivized Exploration for Multi-Armed Bandits under Reward Drift	Nov 12, 2019	Multi-Armed BanditsThompson Sampling	—Unverified
Safe Linear Thompson Sampling with Side Information	Nov 6, 2019	Thompson Sampling	—Unverified
On Online Learning in Kernelized Markov Decision Processes	Nov 4, 2019	Thompson Sampling	—Unverified
On Batch Bayesian Optimization	Nov 4, 2019	Bayesian OptimizationThompson Sampling	—Unverified
Thompson Sampling for Contextual Bandit Problems with Auxiliary Safety Constraints	Nov 2, 2019	Bayesian OptimizationDecision Making	—Unverified
Thompson Sampling via Local Uncertainty	Oct 30, 2019	Decision MakingMulti-Armed Bandits	CodeCode Available
Fixed-Confidence Guarantees for Bayesian Best-Arm Identification	Oct 24, 2019	Thompson Sampling	—Unverified
Thompson Sampling in Non-Episodic Restless Bandits	Oct 12, 2019	Open-Ended Question AnsweringThompson Sampling	—Unverified
Regret Analysis of Bandit Problems with Causal Background Knowledge	Oct 11, 2019	Thompson Sampling	—Unverified
Old Dog Learns New Tricks: Randomized UCB for Bandit Problems	Oct 11, 2019	Thompson Sampling	CodeCode Available
Robust Dynamic Assortment Optimization in the Presence of Outlier Customers	Oct 9, 2019	Assortment OptimizationThompson Sampling	—Unverified
A Quantile-based Approach for Hyperparameter Transfer Learning	Sep 30, 2019	Bayesian OptimizationHyperparameter Optimization	—Unverified
A Copula approach for hyperparameter transfer learning	Sep 25, 2019	Bayesian OptimizationThompson Sampling	—Unverified
Efficient Multivariate Bandit Algorithm with Path Planning	Sep 6, 2019	Heuristic SearchThompson Sampling	—Unverified

Show:10 25 50

← PrevPage 19 of 27Next →

No leaderboard results yet.