Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–500 of 655 papers

Title	Date	Tasks	Status
Making Sense of Reinforcement Learning and Probabilistic Inference	Jan 3, 2020	reinforcement-learningReinforcement Learning	—Unverified
Randomized Exploration for Non-Stationary Stochastic Linear Bandits	Dec 11, 2019	Computational EfficiencyThompson Sampling	CodeCode Available
Solving Bernoulli Rank-One Bandits with Unimodal Thompson Sampling	Dec 6, 2019	Thompson Sampling	—Unverified
Ordinal Bayesian Optimisation	Dec 5, 2019	Bayesian OptimisationThompson Sampling	—Unverified
Thompson Sampling and Approximate Inference	Dec 1, 2019	Decision MakingThompson Sampling	—Unverified
Thompson Sampling for Multinomial Logit Contextual Bandits	Dec 1, 2019	Multi-Armed BanditsThompson Sampling	CodeCode Available
Bayesian Optimization for Categorical and Category-Specific Continuous Inputs	Nov 28, 2019	Bayesian OptimizationBIG-bench Machine Learning	CodeCode Available
Automatic Ensemble Learning for Online Influence Maximization	Nov 25, 2019	Ensemble LearningMulti-Armed Bandits	—Unverified
Multi-Agent Thompson Sampling for Bandit Applications with Sparse Neighbourhood Structures	Nov 22, 2019	Thompson Sampling	CodeCode Available
Information-Theoretic Confidence Bounds for Reinforcement Learning	Nov 21, 2019	reinforcement-learningReinforcement Learning	—Unverified
Adaptive Portfolio by Solving Multi-armed Bandit via Thompson Sampling	Nov 13, 2019	Decision MakingManagement	—Unverified
Incentivized Exploration for Multi-Armed Bandits under Reward Drift	Nov 12, 2019	Multi-Armed BanditsThompson Sampling	—Unverified
Safe Linear Thompson Sampling with Side Information	Nov 6, 2019	Thompson Sampling	—Unverified
On Online Learning in Kernelized Markov Decision Processes	Nov 4, 2019	Thompson Sampling	—Unverified
On Batch Bayesian Optimization	Nov 4, 2019	Bayesian OptimizationThompson Sampling	—Unverified
Thompson Sampling for Contextual Bandit Problems with Auxiliary Safety Constraints	Nov 2, 2019	Bayesian OptimizationDecision Making	—Unverified
Thompson Sampling via Local Uncertainty	Oct 30, 2019	Decision MakingMulti-Armed Bandits	CodeCode Available
Fixed-Confidence Guarantees for Bayesian Best-Arm Identification	Oct 24, 2019	Thompson Sampling	—Unverified
Thompson Sampling in Non-Episodic Restless Bandits	Oct 12, 2019	Open-Ended Question AnsweringThompson Sampling	—Unverified
Regret Analysis of Bandit Problems with Causal Background Knowledge	Oct 11, 2019	Thompson Sampling	—Unverified
Old Dog Learns New Tricks: Randomized UCB for Bandit Problems	Oct 11, 2019	Thompson Sampling	CodeCode Available
Robust Dynamic Assortment Optimization in the Presence of Outlier Customers	Oct 9, 2019	Assortment OptimizationThompson Sampling	—Unverified
A Quantile-based Approach for Hyperparameter Transfer Learning	Sep 30, 2019	Bayesian OptimizationHyperparameter Optimization	—Unverified
A Copula approach for hyperparameter transfer learning	Sep 25, 2019	Bayesian OptimizationThompson Sampling	—Unverified
Efficient Multivariate Bandit Algorithm with Path Planning	Sep 6, 2019	Heuristic SearchThompson Sampling	—Unverified
An Arm-Wise Randomization Approach to Combinatorial Linear Semi-Bandits	Sep 5, 2019	Decision MakingRecommendation Systems	—Unverified
Online Causal Inference for Advertising in Real-Time Bidding Auctions	Aug 22, 2019	Causal InferenceExperimental Design	—Unverified
A Batched Multi-Armed Bandit Approach to News Headline Testing	Aug 17, 2019	ArticlesThompson Sampling	—Unverified
A Bayesian Choice Model for Eliminating Feedback Loops	Aug 15, 2019	Recommendation SystemsThompson Sampling	—Unverified
Thompson Sampling with Approximate Inference	Aug 14, 2019	Decision MakingThompson Sampling	—Unverified
Scaling Multi-Armed Bandit Algorithms	Jul 25, 2019	Multi-Armed BanditsSequential Decision Making	—Unverified
Convergence Rates of Posterior Distributions in Markov Decision Process	Jul 22, 2019	Thompson Sampling	—Unverified
Adaptive Thompson Sampling Stacks for Memory Bounded Open-Loop Planning	Jul 11, 2019	Thompson Sampling	CodeCode Available
Thompson Sampling on Symmetric α-Stable Bandits	Jul 8, 2019	Bayesian InferenceDecision Making	—Unverified
Thompson Sampling for Combinatorial Network Optimization in Unknown Environments	Jul 7, 2019	Combinatorial OptimizationThompson Sampling	—Unverified
Mixed-Variable Bayesian Optimization	Jul 2, 2019	Bayesian OptimizationThompson Sampling	—Unverified
Bandit Learning for Diversified Interactive Recommendation	Jul 1, 2019	Bayesian InferenceDiversity	—Unverified
Thompson Sampling for Adversarial Bit Prediction	Jun 21, 2019	PredictionThompson Sampling	—Unverified
Revised Progressive-Hedging-Algorithm Based Two-layer Solution Scheme for Bayesian Reinforcement Learning	Jun 21, 2019	Reinforcement LearningReinforcement Learning (RL)	—Unverified
Sparse Spectrum Gaussian Process for Bayesian Optimization	Jun 21, 2019	Bayesian OptimisationBayesian Optimization	—Unverified
Stochastic Neural Network with Kronecker Flow	Jun 10, 2019	Multi-Armed BanditsThompson Sampling	—Unverified
The Intrinsic Robustness of Stochastic Bandits to Strategic Manipulation	Jun 4, 2019	Recommendation SystemsThompson Sampling	—Unverified
Regret Bounds for Thompson Sampling in Episodic Restless Bandit Problems	May 29, 2019	Multi-Armed BanditsThompson Sampling	CodeCode Available
Connections Between Mirror Descent, Thompson Sampling and the Information Ratio	May 28, 2019	Thompson Sampling	—Unverified
Feedback graph regret bounds for Thompson Sampling and UCB	May 23, 2019	Thompson Sampling	—Unverified
Adaptive Model Selection Framework: An Application to Airline Pricing	May 21, 2019	Model SelectionThompson Sampling	—Unverified
Adaptive Sensor Placement for Continuous Spaces	May 16, 2019	Thompson Sampling	—Unverified
On the Performance of Thompson Sampling on Logistic Bandits	May 12, 2019	Thompson Sampling	—Unverified
Memory Bounded Open-Loop Planning in Large POMDPs using Thompson Sampling	May 10, 2019	Thompson Sampling	CodeCode Available
AutoSeM: Automatic Task Selection and Mixing in Multi-Task Learning	Apr 8, 2019	Bayesian OptimizationInductive Bias	—Unverified

Show:10 25 50

← PrevPage 10 of 14Next →

No leaderboard results yet.