Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 655 papers

Title	Date	Tasks	Status	Hype
Little Exploration is All You Need	Oct 26, 2023	AllThompson Sampling	—Unverified	0
qPOTS: Efficient batch multiobjective Bayesian optimization via Pareto optimal Thompson sampling	Oct 24, 2023	Bayesian OptimizationComputational Efficiency	CodeCode Available	1
Making RL with Preference-based Feedback Efficient via Randomization	Oct 23, 2023	Active LearningThompson Sampling	—Unverified	0
Parallel Bayesian Optimization Using Satisficing Thompson Sampling for Time-Sensitive Black-Box Optimization	Oct 19, 2023	Bayesian OptimizationSTS	—Unverified	0
Using Adaptive Bandit Experiments to Increase and Investigate Engagement in Mental Health	Oct 13, 2023	Thompson Sampling	CodeCode Available	0
Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining	Oct 12, 2023	In-Context Reinforcement Learningreinforcement-learning	CodeCode Available	1
Optimal Exploration is no harder than Thompson Sampling	Oct 9, 2023	Thompson Sampling	—Unverified	0
Module-wise Adaptive Distillation for Multimodality Foundation Models	Oct 6, 2023	Image CaptioningThompson Sampling	—Unverified	0
Thompson Exploration with Best Challenger Rule in Best Arm Identification	Oct 1, 2023	Thompson Sampling	—Unverified	0
From Bandits Model to Deep Deterministic Policy Gradient, Reinforcement Learning with Contextual Information	Oct 1, 2023	Decision Makingreinforcement-learning	—Unverified	0
Monte-Carlo tree search with uncertainty propagation via optimal transport	Sep 19, 2023	Thompson Sampling	—Unverified	0
Task Selection and Assignment for Multi-modal Multi-task Dialogue Act Classification with Non-stationary Multi-armed Bandits	Sep 18, 2023	Dialogue Act ClassificationMulti-Armed Bandits	—Unverified	0
gym-saturation: Gymnasium environments for saturation provers (System description)	Sep 16, 2023	OpenAI Gymreinforcement-learning	—Unverified	0
Generalized Regret Analysis of Thompson Sampling using Fractional Posteriors	Sep 12, 2023	Thompson Sampling	—Unverified	0
Simple Modification of the Upper Confidence Bound Algorithm by Generalized Weighted Averages	Aug 28, 2023	Decision MakingDecision Making Under Uncertainty	CodeCode Available	0
Cost-Efficient Online Decision Making: A Combinatorial Multi-Armed Bandit Approach	Aug 21, 2023	Decision MakingMulti-Armed Bandits	CodeCode Available	0
Thompson Sampling for Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit	Aug 20, 2023	Thompson Sampling	—Unverified	0
AdaptEx: A Self-Service Contextual Bandit Platform	Aug 8, 2023	Multi-Armed BanditsThompson Sampling	—Unverified	0
Bag of Policies for Distributional Deep Exploration	Aug 3, 2023	Atari GamesEfficient Exploration	—Unverified	0
VITS : Variational Inference Thompson Sampling for contextual bandits	Jul 19, 2023	Multi-Armed BanditsThompson Sampling	CodeCode Available	0
Approximate information for efficient exploration-exploitation strategies	Jul 4, 2023	Decision MakingEfficient Exploration	—Unverified	0
Thompson Sampling under Bernoulli Rewards with Local Differential Privacy	Jul 3, 2023	Thompson Sampling	—Unverified	0
Thompson sampling for improved exploration in GFlowNets	Jun 30, 2023	Active LearningDecision Making	—Unverified	0
Geometry-Aware Approaches for Balancing Performance and Theoretical Guarantees in Linear Bandits	Jun 26, 2023	Decision MakingThompson Sampling	—Unverified	0
Scalable Neural Contextual Bandit for Recommender Systems	Jun 26, 2023	Recommendation SystemsThompson Sampling	—Unverified	0
Langevin Thompson Sampling with Logarithmic Communication: Bandits and Reinforcement Learning	Jun 15, 2023	Decision MakingMulti-Armed Bandits	—Unverified	0
Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space	Jun 5, 2023	Thompson Sampling	—Unverified	0
Incentivizing Exploration with Linear Contexts and Combinatorial Actions	Jun 3, 2023	Thompson Sampling	—Unverified	0
ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages	Jun 2, 2023	Bayesian Inferencecontinuous-control	CodeCode Available	0
Combinatorial Neural Bandits	May 31, 2023	Thompson Sampling	—Unverified	0
Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo	May 29, 2023	Efficient Explorationreinforcement-learning	CodeCode Available	1
Practical Batch Bayesian Sampling Algorithms for Online Adaptive Traffic Experimentation	May 24, 2023	Thompson Sampling	—Unverified	0
Discounted Thompson Sampling for Non-Stationary Bandit Problems	May 18, 2023	Thompson Sampling	—Unverified	0
Sequential Best-Arm Identification with Application to Brain-Computer Interface	May 17, 2023	Brain Computer InterfaceEEG	—Unverified	0
Thompson Sampling for Parameterized Markov Decision Processes with Uninformative Actions	May 13, 2023	Bayesian InferenceThompson Sampling	—Unverified	0
An improved regret analysis for UCB-N and TS-N	May 6, 2023	LEMMAThompson Sampling	—Unverified	0
Trajectory-oriented optimization of stochastic epidemiological models	May 6, 2023	Thompson Sampling	CodeCode Available	0
Neural Exploitation and Exploration of Contextual Bandits	May 5, 2023	Multi-Armed BanditsThompson Sampling	CodeCode Available	1
Kullback-Leibler Maillard Sampling for Multi-armed Bandits with Bounded Rewards	Apr 28, 2023	Multi-Armed BanditsThompson Sampling	CodeCode Available	0
Thompson Sampling Regret Bounds for Contextual Bandits with sub-Gaussian rewards	Apr 26, 2023	Multi-Armed BanditsThompson Sampling	—Unverified	0
Efficiently Tackling Million-Dimensional Multiobjective Problems: A Direction Sampling and Fine-Tuning Approach	Apr 8, 2023	Multiobjective OptimizationRecommendation Systems	—Unverified	0
Sharp Deviations Bounds for Dirichlet Weighted Sums with Application to analysis of Bayesian algorithms	Apr 6, 2023	Multi-Armed BanditsThompson Sampling	—Unverified	0
GUTS: Generalized Uncertainty-Aware Thompson Sampling for Multi-Agent Active Search	Apr 4, 2023	AllDisaster Response	—Unverified	0
Adaptive Experimentation at Scale: A Computational Framework for Flexible Batches	Mar 21, 2023	BenchmarkingThompson Sampling	—Unverified	0
Only Pay for What Is Uncertain: Variance-Adaptive Thompson Sampling	Mar 16, 2023	Multi-Armed BanditsThompson Sampling	—Unverified	0
A Unified and Efficient Coordinating Framework for Autonomous DBMS Tuning	Mar 10, 2023	Thompson Sampling	—Unverified	0
A General Recipe for the Analysis of Randomized Multi-Armed Bandit Algorithms	Mar 10, 2023	Thompson Sampling	—Unverified	0
Thompson Sampling for Linear Bandit Problems with Normal-Gamma Priors	Mar 6, 2023	Thompson Sampling	—Unverified	0
The Choice of Noninformative Priors for Thompson Sampling in Multiparameter Bandit Models	Feb 28, 2023	Multi-Armed BanditsThompson Sampling	—Unverified	0
When Combinatorial Thompson Sampling meets Approximation Regret	Feb 22, 2023	Thompson Sampling	—Unverified	0

Show:10 25 50

← PrevPage 4 of 14Next →

No leaderboard results yet.