Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 655 papers

Title	Date	Tasks	Status
Thompson Sampling for Gaussian Entropic Risk Bandits	May 14, 2021	Decision MakingThompson Sampling	—Unverified
High-dimensional near-optimal experiment design for drug discovery via Bayesian sparse sampling	Apr 23, 2021	Bayesian InferenceDrug Discovery	—Unverified
When and Whom to Collaborate with in a Changing Environment: A Collaborative Dynamic Bandit Solution	Apr 14, 2021	Bayesian InferenceCollaborative Filtering	—Unverified
Blind Exploration and Exploitation of Stochastic Experts	Apr 2, 2021	Thompson Sampling	—Unverified
Challenges in Statistical Analysis of Data Collected by a Bandit Algorithm: An Empirical Exploration in Applications to Adaptively Randomized Experiments	Mar 22, 2021	Thompson Sampling	—Unverified
Constrained Contextual Bandit Learning for Adaptive Radar Waveform Selection	Mar 9, 2021	Thompson Sampling	—Unverified
Efficient Optimal Selection for Composited Advertising Creatives with Tree Structure	Mar 2, 2021	Efficient ExplorationThompson Sampling	CodeCode Available
Automated Creative Optimization for E-Commerce Advertising	Feb 28, 2021	AutoMLClick-Through Rate Prediction	CodeCode Available
Online Multi-Armed Bandits with Adaptive Inference	Feb 25, 2021	Causal InferenceDecision Making	—Unverified
Model-based Meta Reinforcement Learning using Graph Structured Surrogate Models	Feb 16, 2021	Decision MakingMeta Reinforcement Learning	—Unverified
Near-Optimal Algorithms for Differentially Private Online Learning in a Stochastic Environment	Feb 16, 2021	Thompson Sampling	—Unverified
The Elliptical Potential Lemma for General Distributions with an Application to Linear Thompson Sampling	Feb 16, 2021	Decision MakingLEMMA	—Unverified
Meta-Thompson Sampling	Feb 11, 2021	Efficient ExplorationMeta-Learning	—Unverified
On the Suboptimality of Thompson Sampling in High Dimensions	Feb 10, 2021	Thompson SamplingVocal Bursts Intensity Prediction	CodeCode Available
State-Aware Variational Thompson Sampling for Deep Q-Networks	Feb 7, 2021	Thompson Sampling	CodeCode Available
Doubly robust Thompson sampling for linear payoffs	Feb 1, 2021	Thompson Sampling	—Unverified
Weak Signal Asymptotics for Sequentially Randomized Experiments	Jan 25, 2021	Thompson Sampling	—Unverified
Scalable Optimization for Wind Farm Control using Coordination Graphs	Jan 19, 2021	Thompson Sampling	CodeCode Available
TSEC: a framework for online experimentation under experimental constraints	Jan 17, 2021	Portfolio OptimizationThompson Sampling	—Unverified
Deciding What to Learn: A Rate-Distortion Approach	Jan 15, 2021	Decision MakingSequential Decision Making	—Unverified
Etat de l'art sur l'application des bandits multi-bras	Jan 4, 2021	Thompson Sampling	—Unverified
Meta-Reinforcement Learning With Informed Policy Regularization	Jan 1, 2021	Meta Reinforcement Learningreinforcement-learning	—Unverified
Learning to Play Imperfect-Information Games by Imitating an Oracle Planner	Dec 22, 2020	Thompson Sampling	CodeCode Available
Aging Bandits: Regret Analysis and Order-Optimal Learning Algorithm for Wireless Networks with Stochastic Arrivals	Dec 16, 2020	Thompson Sampling	—Unverified
Reinforcement Learning with Subspaces using Free Energy Paradigm	Dec 13, 2020	reinforcement-learningReinforcement Learning	—Unverified
Distributed Thompson Sampling	Dec 3, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
On Efficiency in Hierarchical Reinforcement Learning	Dec 1, 2020	Computational EfficiencyDecision Making	—Unverified
Non-Stationary Latent Bandits	Dec 1, 2020	Recommendation SystemsThompson Sampling	—Unverified
Distilled Thompson Sampling: Practical and Efficient Thompson Sampling via Imitation Learning	Nov 29, 2020	Action GenerationDecision Making	—Unverified
Risk-Constrained Thompson Sampling for CVaR Bandits	Nov 16, 2020	Decision MakingThompson Sampling	—Unverified
Reward Biased Maximum Likelihood Estimation for Reinforcement Learning	Nov 16, 2020	Multi-Armed Banditsreinforcement-learning	—Unverified
Accelerating Grasp Exploration by Leveraging Learned Priors	Nov 11, 2020	ObjectThompson Sampling	—Unverified
Multi-Agent Active Search using Realistic Depth-Aware Noise Model	Nov 9, 2020	object-detectionObject Detection	CodeCode Available
Thompson sampling for linear quadratic mean-field teams	Nov 9, 2020	Thompson Sampling	—Unverified
Asymptotic Convergence of Thompson Sampling	Nov 8, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Adaptive Combinatorial Allocation	Nov 4, 2020	Thompson Sampling	—Unverified
Greedy k-Center from Noisy Distance Samples	Nov 3, 2020	Thompson Sampling	—Unverified
Multi-armed Bandits with Cost Subsidy	Nov 3, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Screening for an Infectious Disease as a Problem in Stochastic Control	Nov 1, 2020	Thompson Sampling	—Unverified
Bandit Policies for Reliable Cellular Network Handovers in Extreme Mobility	Oct 28, 2020	Thompson Sampling	—Unverified
Sub-sampling for Efficient Non-Parametric Bandit Exploration	Oct 27, 2020	Thompson Sampling	CodeCode Available
Improved Worst-Case Regret Bounds for Randomized Least-Squares Value Iteration	Oct 23, 2020	reinforcement-learningReinforcement Learning	—Unverified
Bayesian Algorithms for Decentralized Stochastic Bandits	Oct 20, 2020	Thompson Sampling	CodeCode Available
Reinforcement Learning for Efficient and Tuning-Free Link Adaptation	Oct 16, 2020	reinforcement-learningReinforcement Learning	—Unverified
Double-Linear Thompson Sampling for Context-Attentive Bandits	Oct 15, 2020	Medical DiagnosisThompson Sampling	—Unverified
Asynchronous ε-Greedy Bayesian Optimisation	Oct 15, 2020	Bayesian OptimisationThompson Sampling	CodeCode Available
Online Learning and Distributed Control for Residential Demand Response	Oct 11, 2020	Stochastic OptimizationThompson Sampling	—Unverified
Effects of Model Misspecification on Bayesian Bandits: Case Studies in UX Optimization	Oct 7, 2020	Thompson Sampling	—Unverified
Stage-wise Conservative Linear Bandits	Sep 30, 2020	FormThompson Sampling	—Unverified
Neural Model-based Optimization with Right-Censored Observations	Sep 29, 2020	modelregression	—Unverified

Show:10 25 50

← PrevPage 8 of 14Next →

No leaderboard results yet.