Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 655 papers

Title	Date	Tasks	Status	Hype
Model-based Meta Reinforcement Learning using Graph Structured Surrogate Models	Feb 16, 2021	Decision MakingMeta Reinforcement Learning	—Unverified	0
Near-Optimal Algorithms for Differentially Private Online Learning in a Stochastic Environment	Feb 16, 2021	Thompson Sampling	—Unverified	0
The Elliptical Potential Lemma for General Distributions with an Application to Linear Thompson Sampling	Feb 16, 2021	Decision MakingLEMMA	—Unverified	0
Meta-Thompson Sampling	Feb 11, 2021	Efficient ExplorationMeta-Learning	—Unverified	0
On the Suboptimality of Thompson Sampling in High Dimensions	Feb 10, 2021	Thompson SamplingVocal Bursts Intensity Prediction	CodeCode Available	0
State-Aware Variational Thompson Sampling for Deep Q-Networks	Feb 7, 2021	Thompson Sampling	CodeCode Available	0
Doubly robust Thompson sampling for linear payoffs	Feb 1, 2021	Thompson Sampling	—Unverified	0
Weak Signal Asymptotics for Sequentially Randomized Experiments	Jan 25, 2021	Thompson Sampling	—Unverified	0
An empirical evaluation of active inference in multi-armed bandits	Jan 21, 2021	BIG-bench Machine LearningDecision Making	CodeCode Available	1
Scalable Optimization for Wind Farm Control using Coordination Graphs	Jan 19, 2021	Thompson Sampling	CodeCode Available	0
TSEC: a framework for online experimentation under experimental constraints	Jan 17, 2021	Portfolio OptimizationThompson Sampling	—Unverified	0
Deciding What to Learn: A Rate-Distortion Approach	Jan 15, 2021	Decision MakingSequential Decision Making	—Unverified	0
Etat de l'art sur l'application des bandits multi-bras	Jan 4, 2021	Thompson Sampling	—Unverified	0
Meta-Reinforcement Learning With Informed Policy Regularization	Jan 1, 2021	Meta Reinforcement Learningreinforcement-learning	—Unverified	0
Learning to Play Imperfect-Information Games by Imitating an Oracle Planner	Dec 22, 2020	Thompson Sampling	CodeCode Available	0
Aging Bandits: Regret Analysis and Order-Optimal Learning Algorithm for Wireless Networks with Stochastic Arrivals	Dec 16, 2020	Thompson Sampling	—Unverified	0
Mercer Features for Efficient Combinatorial Bayesian Optimization	Dec 14, 2020	Bayesian OptimizationThompson Sampling	CodeCode Available	1
Reinforcement Learning with Subspaces using Free Energy Paradigm	Dec 13, 2020	reinforcement-learningReinforcement Learning	—Unverified	0
Optimal Thompson Sampling strategies for support-aware CVaR bandits	Dec 10, 2020	Thompson Sampling	CodeCode Available	1
Distributed Thompson Sampling	Dec 3, 2020	Multi-Armed BanditsThompson Sampling	—Unverified	0
Non-Stationary Latent Bandits	Dec 1, 2020	Recommendation SystemsThompson Sampling	—Unverified	0
On Efficiency in Hierarchical Reinforcement Learning	Dec 1, 2020	Computational EfficiencyDecision Making	—Unverified	0
Distilled Thompson Sampling: Practical and Efficient Thompson Sampling via Imitation Learning	Nov 29, 2020	Action GenerationDecision Making	—Unverified	0
Reward Biased Maximum Likelihood Estimation for Reinforcement Learning	Nov 16, 2020	Multi-Armed Banditsreinforcement-learning	—Unverified	0
Risk-Constrained Thompson Sampling for CVaR Bandits	Nov 16, 2020	Decision MakingThompson Sampling	—Unverified	0
Accelerating Grasp Exploration by Leveraging Learned Priors	Nov 11, 2020	ObjectThompson Sampling	—Unverified	0
Thompson sampling for linear quadratic mean-field teams	Nov 9, 2020	Thompson Sampling	—Unverified	0
Multi-Agent Active Search using Realistic Depth-Aware Noise Model	Nov 9, 2020	object-detectionObject Detection	CodeCode Available	0
Asymptotic Convergence of Thompson Sampling	Nov 8, 2020	Multi-Armed BanditsThompson Sampling	—Unverified	0
Adaptive Combinatorial Allocation	Nov 4, 2020	Thompson Sampling	—Unverified	0
Multi-armed Bandits with Cost Subsidy	Nov 3, 2020	Multi-Armed BanditsThompson Sampling	—Unverified	0
Greedy k-Center from Noisy Distance Samples	Nov 3, 2020	Thompson Sampling	—Unverified	0
Screening for an Infectious Disease as a Problem in Stochastic Control	Nov 1, 2020	Thompson Sampling	—Unverified	0
Bandit Policies for Reliable Cellular Network Handovers in Extreme Mobility	Oct 28, 2020	Thompson Sampling	—Unverified	0
Sub-sampling for Efficient Non-Parametric Bandit Exploration	Oct 27, 2020	Thompson Sampling	CodeCode Available	0
Improved Worst-Case Regret Bounds for Randomized Least-Squares Value Iteration	Oct 23, 2020	reinforcement-learningReinforcement Learning	—Unverified	0
Bayesian Algorithms for Decentralized Stochastic Bandits	Oct 20, 2020	Thompson Sampling	CodeCode Available	0
Federated Bayesian Optimization via Thompson Sampling	Oct 20, 2020	Bayesian OptimizationComputational Efficiency	CodeCode Available	1
Reinforcement Learning for Efficient and Tuning-Free Link Adaptation	Oct 16, 2020	reinforcement-learningReinforcement Learning	—Unverified	0
Double-Linear Thompson Sampling for Context-Attentive Bandits	Oct 15, 2020	Medical DiagnosisThompson Sampling	—Unverified	0
Asynchronous ε-Greedy Bayesian Optimisation	Oct 15, 2020	Bayesian OptimisationThompson Sampling	CodeCode Available	0
Online Learning and Distributed Control for Residential Demand Response	Oct 11, 2020	Stochastic OptimizationThompson Sampling	—Unverified	0
Effects of Model Misspecification on Bayesian Bandits: Case Studies in UX Optimization	Oct 7, 2020	Thompson Sampling	—Unverified	0
Neural Thompson Sampling	Oct 2, 2020	Multi-Armed BanditsThompson Sampling	CodeCode Available	1
Stage-wise Conservative Linear Bandits	Sep 30, 2020	FormThompson Sampling	—Unverified	0
Neural Model-based Optimization with Right-Censored Observations	Sep 29, 2020	modelregression	—Unverified	0
Position-Based Multiple-Play Bandits with Thompson Sampling	Sep 28, 2020	PositionRecommendation Systems	—Unverified	0
Bandit Change-Point Detection for Real-Time Monitoring High-Dimensional Data Under Sampling Control	Sep 24, 2020	Change Point DetectionComputational Efficiency	—Unverified	0
Partially Observable Online Change Detection via Smooth-Sparse Decomposition	Sep 22, 2020	Bayesian InferenceChange Detection	—Unverified	0
Bandits Under The Influence (Extended Version)	Sep 21, 2020	Recommendation SystemsThompson Sampling	—Unverified	0

Show:10 25 50

← PrevPage 8 of 14Next →

No leaderboard results yet.