Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–550 of 655 papers

Title	Date	Tasks	Status
Randomised Bayesian Least-Squares Policy Iteration	Apr 6, 2019	Thompson Sampling	—Unverified
Sampling Acquisition Functions for Batch Bayesian Optimization	Mar 22, 2019	Bayesian OptimizationThompson Sampling	—Unverified
On Multi-Armed Bandit Designs for Dose-Finding Clinical Trials	Mar 17, 2019	Thompson Sampling	—Unverified
Sample-Efficient Model-Free Reinforcement Learning with Off-Policy Critics	Mar 11, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Meta Dynamic Pricing: Transfer Learning Across Experiments	Feb 28, 2019	Thompson SamplingTransfer Learning	—Unverified
Constrained Thompson Sampling for Wireless Link Optimization	Feb 28, 2019	Thompson Sampling	—Unverified
Fully Distributed Bayesian Optimization with Stochastic Policies	Feb 26, 2019	Bayesian OptimizationThompson Sampling	—Unverified
Multi-Armed Bandit Strategies for Non-Stationary Reward Distributions and Delayed Feedback Processes	Feb 22, 2019	Thompson Sampling	—Unverified
Scalable Thompson Sampling via Optimal Transport	Feb 19, 2019	Decision MakingSequential Decision Making	—Unverified
Thompson Sampling with Information Relaxation Penalties	Feb 12, 2019	Thompson Sampling	CodeCode Available
KLUCB Approach to Copeland Bandits	Feb 7, 2019	Information RetrievalReinforcement Learning	—Unverified
First-Order Bayesian Regret Analysis of Thompson Sampling	Feb 2, 2019	Combinatorial OptimizationThompson Sampling	—Unverified
Contextual Multi-armed Bandit Algorithm for Semiparametric Reward Model	Jan 31, 2019	Recommendation SystemsThompson Sampling	—Unverified
Thompson Sampling for a Fatigue-aware Online Recommendation System	Jan 23, 2019	Thompson Sampling	CodeCode Available
Parallel Contextual Bandits in Wireless Handover Optimization	Jan 21, 2019	Multi-Armed BanditsThompson Sampling	—Unverified
Information-Directed Exploration for Deep Reinforcement Learning	Dec 18, 2018	Atari GamesDeep Reinforcement Learning	CodeCode Available
MergeDTS: A Method for Effective Large-Scale Online Ranker Evaluation	Dec 11, 2018	Information RetrievalOnline Ranker Evaluation	CodeCode Available
Thompson Sampling for Noncompliant Bandits	Dec 3, 2018	Thompson Sampling	—Unverified
Bandit Learning with Implicit Feedback	Dec 1, 2018	Bayesian InferenceThompson Sampling	CodeCode Available
Optimal Learning for Dynamic Coding in Deadline-Constrained Multi-Channel Networks	Nov 27, 2018	Thompson Sampling	—Unverified
Adapting multi-armed bandits policies to contextual bandits scenarios	Nov 11, 2018	Binary ClassificationClassification	CodeCode Available
Thompson Sampling for Pursuit-Evasion Problems	Nov 11, 2018	Thompson Sampling	—Unverified
Practical Bayesian Learning of Neural Networks via Adaptive Optimisation Methods	Nov 8, 2018	Multi-Armed BanditsThompson Sampling	CodeCode Available
A Unified Approach to Translate Classical Bandit Algorithms to the Structured Bandit Setting	Oct 18, 2018	Thompson Sampling	—Unverified
Combining Bayesian Optimization and Lipschitz Optimization	Oct 10, 2018	Bayesian Optimizationglobal-optimization	—Unverified
Thompson Sampling Algorithms for Cascading Bandits	Oct 2, 2018	Efficient ExplorationMulti-Armed Bandits	—Unverified
Contextual Multi-Armed Bandits for Causal Marketing	Oct 2, 2018	Causal Inferencecounterfactual	—Unverified
Efficient Linear Bandits through Matrix Sketching	Sep 28, 2018	Thompson Sampling	—Unverified
Incorporating Behavioral Constraints in Online AI Systems	Sep 15, 2018	Thompson Sampling	—Unverified
Analysis of Thompson Sampling for Combinatorial Multi-armed Bandit with Probabilistically Triggered Arms	Sep 7, 2018	Thompson Sampling	—Unverified
Adaptive Grey-Box Fuzz-Testing with Thompson Sampling	Aug 24, 2018	Thompson Sampling	—Unverified
Nonparametric Gaussian Mixture Models for the Multi-Armed Bandit	Aug 8, 2018	Density EstimationMulti-Armed Bandits	CodeCode Available
Sequential Monte Carlo Bandits	Aug 8, 2018	Decision MakingSequential Decision Making	CodeCode Available
Deep Contextual Multi-armed Bandits	Jul 25, 2018	MarketingMulti-Armed Bandits	—Unverified
Tsallis-INF: An Optimal Algorithm for Stochastic and Adversarial Bandits	Jul 19, 2018	Multi-Armed BanditsThompson Sampling	—Unverified
Optimization of a SSP's Header Bidding Strategy using Thompson Sampling	Jul 9, 2018	Thompson Sampling	—Unverified
Improved Regret Bounds for Thompson Sampling in Linear Quadratic Control Problems	Jul 1, 2018	Reinforcement LearningThompson Sampling	—Unverified
On The Differential Privacy of Thompson Sampling With Gaussian Prior	Jun 24, 2018	Thompson Sampling	—Unverified
Randomized Value Functions via Multiplicative Normalizing Flows	Jun 6, 2018	Efficient ExplorationThompson Sampling	CodeCode Available
Sequential Test for the Lowest Mean: From Thompson to Murphy Sampling	Jun 4, 2018	Reinforcement LearningReinforcement Learning (RL)	—Unverified
An Information-Theoretic Analysis for Thompson Sampling with Many Actions	May 30, 2018	Thompson Sampling	—Unverified
Myopic Bayesian Design of Experiments via Posterior Sampling and Probabilistic Programming	May 25, 2018	Bayesian InferenceMulti-Armed Bandits	CodeCode Available
New Insights into Bootstrapping for Bandits	May 24, 2018	Thompson Sampling	—Unverified
Analysis of Thompson Sampling for Graphical Bandits Without the Graphs	May 23, 2018	Thompson Sampling	—Unverified
PG-TS: Improved Thompson Sampling for Logistic Contextual Bandits	May 18, 2018	Multi-Armed BanditsThompson Sampling	—Unverified
Profitable Bandits	May 8, 2018	ManagementThompson Sampling	—Unverified
Thompson Sampling for Combinatorial Semi-Bandits	Mar 13, 2018	Thompson Sampling	—Unverified
Active Reinforcement Learning with Monte-Carlo Tree Search	Mar 13, 2018	reinforcement-learningReinforcement Learning	—Unverified
Satisficing in Time-Sensitive Bandit Learning	Mar 7, 2018	Thompson Sampling	—Unverified
Deep Bayesian Bandits Showdown: An Empirical Comparison of Bayesian Deep Networks for Thompson Sampling	Feb 26, 2018	Decision MakingDeep Reinforcement Learning	CodeCode Available

Show:10 25 50

← PrevPage 11 of 14Next →

No leaderboard results yet.