Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 655 papers

Title	Date	Tasks	Status
Risk-averse Contextual Multi-armed Bandit Problem with Linear Payoffs	Jun 24, 2022	Thompson Sampling	—Unverified
Analysis of Thompson Sampling for Controlling Unknown Linear Diffusion Processes	Jun 20, 2022	Decision MakingDecision Making Under Uncertainty	—Unverified
Thompson Sampling for (Combinatorial) Pure Exploration	Jun 18, 2022	Thompson Sampling	—Unverified
Thompson Sampling for Robust Transfer in Multi-Task Bandits	Jun 17, 2022	Multi-Task LearningThompson Sampling	CodeCode Available
Thompson Sampling Achieves O(T) Regret in Linear Quadratic Control	Jun 17, 2022	Decision MakingDecision Making Under Uncertainty	—Unverified
A Contextual Combinatorial Semi-Bandit Approach to Network Bottleneck Identification	Jun 16, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
On Provably Robust Meta-Bayesian Optimization	Jun 14, 2022	Bayesian OptimizationMeta-Learning	CodeCode Available
Top Two Algorithms Revisited	Jun 13, 2022	Thompson SamplingVocal Bursts Valence Prediction	—Unverified
Regret Bounds for Information-Directed Reinforcement Learning	Jun 9, 2022	reinforcement-learningReinforcement Learning	—Unverified
A Simple and Optimal Policy Design with Safety against Heavy-Tailed Risk for Stochastic Bandits	Jun 7, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Finite-Time Regret of Thompson Sampling Algorithms for Exponential Family Multi-Armed Bandits	Jun 7, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Bandit Theory and Thompson Sampling-Guided Directed Evolution for Sequence Optimization	Jun 5, 2022	BIG-bench Machine LearningEvolutionary Algorithms	—Unverified
Incentivizing Combinatorial Bandit Exploration	Jun 1, 2022	Thompson Sampling	—Unverified
Mixed-Effect Thompson Sampling	May 30, 2022	Thompson Sampling	CodeCode Available
Surrogate modeling for Bayesian optimization beyond a single Gaussian process	May 27, 2022	Bayesian OptimizationDrug Discovery	—Unverified
Lifting the Information Ratio: An Information-Theoretic Analysis of Thompson Sampling for Contextual Bandits	May 27, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Information-Directed Selection for Top-Two Algorithms	May 24, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available
Fast Change Identification in Multi-Play Bandits and its Applications in Wireless Networks	May 20, 2022	Change DetectionEdge-computing	—Unverified
Semi-Parametric Contextual Bandits with Graph-Laplacian Regularization	May 17, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Adjusted Expected Improvement for Cumulative Regret Minimization in Noisy Bayesian Optimization	May 10, 2022	Bayesian OptimizationThompson Sampling	—Unverified
Non-Stationary Bandit Learning via Predictive Sampling	May 4, 2022	AttributeThompson Sampling	—Unverified
Evolutionary Multi-Armed Bandits with Genetic Thompson Sampling	Apr 26, 2022	Decision MakingEvolutionary Algorithms	CodeCode Available
Thompson Sampling for Bandit Learning in Matching Markets	Apr 26, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available
On Kernelized Multi-Armed Bandits with Constraints	Mar 29, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Multi-armed bandits for resource efficient, online optimization of language model pre-training: the use case of dynamic masking	Mar 24, 2022	Bayesian OptimizationDecision Making	CodeCode Available
Thompson Sampling on Asymmetric α-Stable Bandits	Mar 19, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Regenerative Particle Thompson Sampling	Mar 15, 2022	Thompson Sampling	—Unverified
Multi-Agent Active Search using Detection and Location Uncertainty	Mar 9, 2022	Decision MakingDisaster Response	—Unverified
An Analysis of Ensemble Sampling	Mar 2, 2022	Thompson Sampling	—Unverified
Partial Likelihood Thompson Sampling	Mar 2, 2022	Thompson Sampling	—Unverified
Scalable Bayesian Optimization Using Vecchia Approximations of Gaussian Processes	Mar 2, 2022	Bayesian OptimizationGaussian Processes	CodeCode Available
Towards Scalable and Robust Structured Bandits: A Meta-Learning Framework	Feb 26, 2022	Meta-LearningThompson Sampling	—Unverified
Thompson Sampling with Unrestricted Delays	Feb 24, 2022	Thompson Sampling	—Unverified
Double Thompson Sampling in Finite stochastic Games	Feb 21, 2022	Thompson Sampling	—Unverified
Adaptive Experimentation in the Presence of Exogenous Nonstationary Variation	Feb 18, 2022	Thompson Sampling	—Unverified
Fast online inference for nonlinear contextual bandit based on Generative Adversarial Network	Feb 17, 2022	Bayesian InferenceGenerative Adversarial Network	—Unverified
Synthetically Controlled Bandits	Feb 14, 2022	Thompson Sampling	—Unverified
Remote Contextual Bandits	Feb 10, 2022	MarketingMulti-Armed Bandits	—Unverified
Fourier Representations for Black-Box Optimization over Categorical Variables	Feb 8, 2022	regressionThompson Sampling	—Unverified
On learning Whittle index policy for restless bandits with scalable regret	Feb 7, 2022	SchedulingThompson Sampling	—Unverified
Bayesian Non-stationary Linear Bandits for Large-Scale Recommender Systems	Feb 7, 2022	Decision MakingDimensionality Reduction	CodeCode Available
Tsetlin Machine for Solving Contextual Bandit Problems	Feb 4, 2022	Thompson Sampling	CodeCode Available
Deep Hierarchy in Bandits	Feb 3, 2022	Thompson Sampling	—Unverified
Evaluating Deep Vs. Wide & Deep Learners As Contextual Bandits For Personalized Email Promo Recommendations	Jan 31, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available
Optimal Regret Is Achievable with Bounded Approximate Inference Error: An Enhanced Bayesian Upper Confidence Bound Framework	Jan 31, 2022	Bayesian InferenceMulti-Armed Bandits	CodeCode Available
Modeling Human Exploration Through Resource-Rational Reinforcement Learning	Jan 27, 2022	Meta-Learningreinforcement-learning	CodeCode Available
Augmented RBMLE-UCB Approach for Adaptive Control of Linear Quadratic Systems	Jan 25, 2022	parameter estimationThompson Sampling	—Unverified
IBAC: An Intelligent Dynamic Bandwidth Channel Access Avoiding Outside Warning Range Problem	Jan 15, 2022	Thompson Sampling	—Unverified
On Dynamic Pricing with Covariates	Dec 25, 2021	Thompson Sampling	—Unverified
Algorithms for Adaptive Experiments that Trade-off Statistical Analysis with Reward: Combining Uniform Random Assignment and Reward Maximization	Dec 15, 2021	Thompson Sampling	—Unverified

Show:10 25 50

← PrevPage 6 of 14Next →

No leaderboard results yet.