Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 655 papers

Title	Date	Tasks	Status
Thompson Sampling for Stochastic Bandits with Noisy Contexts: An Information-Theoretic Regret Analysis	Jan 21, 2024	Thompson Sampling	—Unverified
Model-Free Approximate Bayesian Learning for Large-Scale Conversion Funnel Optimization	Jan 12, 2024	Decision MakingMarketing	—Unverified
Decentralized Multi-Agent Active Search and Tracking when Targets Outnumber Agents	Jan 6, 2024	Decision MakingThompson Sampling	—Unverified
Improving sample efficiency of high dimensional Bayesian optimization with MCMC	Jan 5, 2024	Bayesian OptimizationThompson Sampling	—Unverified
Zero-Inflated Bandits	Dec 25, 2023	Multi-Armed BanditsThompson Sampling	—Unverified
Finite-Time Frequentist Regret Bounds of Multi-Agent Thompson Sampling on Sparse Hypergraphs	Dec 24, 2023	Computational EfficiencyThompson Sampling	CodeCode Available
Best Arm Identification in Batched Multi-armed Bandit Problems	Dec 21, 2023	MarketingThompson Sampling	—Unverified
Bayesian Analysis of Combinatorial Gaussian Process Bandits	Dec 20, 2023	Bayesian InferenceInformativeness	—Unverified
RoME: A Robust Mixed-Effects Bandit Algorithm for Optimizing Mobile Health Interventions	Dec 11, 2023	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Sample-based Dynamic Hierarchical Transformer with Layer and Head Flexibility via Contextual Bandit	Dec 5, 2023	Thompson Sampling	—Unverified
The Sliding Regret in Stochastic Bandits: Discriminating Index and Randomized Policies	Nov 30, 2023	Thompson Sampling	—Unverified
Thompson sampling for zero-inflated count outcomes with an application to the Drink Less mobile health study	Nov 24, 2023	Decision MakingMulti-Armed Bandits	—Unverified
Probabilistic Inference in Reinforcement Learning Done Right	Nov 22, 2023	reinforcement-learningReinforcement Learning	—Unverified
A Distributed Neural Linear Thompson Sampling Framework to Achieve URLLC in Industrial IoT	Nov 21, 2023	SchedulingThompson Sampling	—Unverified
Adaptive Interventions with User-Defined Goals for Health Behavior Change	Nov 16, 2023	Thompson Sampling	CodeCode Available
Exploration via linearly perturbed loss minimisation	Nov 13, 2023	Thompson Sampling	—Unverified
Posterior Sampling-Based Bayesian Optimization with Tighter Bayesian Regret Bounds	Nov 7, 2023	Bayesian OptimizationThompson Sampling	—Unverified
Batch Bayesian Optimization for Replicable Experimental Design	Nov 2, 2023	AutoMLBayesian Optimization	—Unverified
Improved Bayesian Regret Bounds for Thompson Sampling in Reinforcement Learning	Oct 30, 2023	reinforcement-learningReinforcement Learning	—Unverified
Dual-Directed Algorithm Design for Efficient Pure Exploration	Oct 30, 2023	Thompson Sampling	—Unverified
Little Exploration is All You Need	Oct 26, 2023	AllThompson Sampling	—Unverified
Making RL with Preference-based Feedback Efficient via Randomization	Oct 23, 2023	Active LearningThompson Sampling	—Unverified
Parallel Bayesian Optimization Using Satisficing Thompson Sampling for Time-Sensitive Black-Box Optimization	Oct 19, 2023	Bayesian OptimizationSTS	—Unverified
Using Adaptive Bandit Experiments to Increase and Investigate Engagement in Mental Health	Oct 13, 2023	Thompson Sampling	CodeCode Available
Optimal Exploration is no harder than Thompson Sampling	Oct 9, 2023	Thompson Sampling	—Unverified
Module-wise Adaptive Distillation for Multimodality Foundation Models	Oct 6, 2023	Image CaptioningThompson Sampling	—Unverified
From Bandits Model to Deep Deterministic Policy Gradient, Reinforcement Learning with Contextual Information	Oct 1, 2023	Decision Makingreinforcement-learning	—Unverified
Thompson Exploration with Best Challenger Rule in Best Arm Identification	Oct 1, 2023	Thompson Sampling	—Unverified
Monte-Carlo tree search with uncertainty propagation via optimal transport	Sep 19, 2023	Thompson Sampling	—Unverified
Task Selection and Assignment for Multi-modal Multi-task Dialogue Act Classification with Non-stationary Multi-armed Bandits	Sep 18, 2023	Dialogue Act ClassificationMulti-Armed Bandits	—Unverified
gym-saturation: Gymnasium environments for saturation provers (System description)	Sep 16, 2023	OpenAI Gymreinforcement-learning	—Unverified
Generalized Regret Analysis of Thompson Sampling using Fractional Posteriors	Sep 12, 2023	Thompson Sampling	—Unverified
Simple Modification of the Upper Confidence Bound Algorithm by Generalized Weighted Averages	Aug 28, 2023	Decision MakingDecision Making Under Uncertainty	CodeCode Available
Cost-Efficient Online Decision Making: A Combinatorial Multi-Armed Bandit Approach	Aug 21, 2023	Decision MakingMulti-Armed Bandits	CodeCode Available
Thompson Sampling for Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit	Aug 20, 2023	Thompson Sampling	—Unverified
AdaptEx: A Self-Service Contextual Bandit Platform	Aug 8, 2023	Multi-Armed BanditsThompson Sampling	—Unverified
Bag of Policies for Distributional Deep Exploration	Aug 3, 2023	Atari GamesEfficient Exploration	—Unverified
VITS : Variational Inference Thompson Sampling for contextual bandits	Jul 19, 2023	Multi-Armed BanditsThompson Sampling	CodeCode Available
Approximate information for efficient exploration-exploitation strategies	Jul 4, 2023	Decision MakingEfficient Exploration	—Unverified
Thompson Sampling under Bernoulli Rewards with Local Differential Privacy	Jul 3, 2023	Thompson Sampling	—Unverified
Thompson sampling for improved exploration in GFlowNets	Jun 30, 2023	Active LearningDecision Making	—Unverified
Geometry-Aware Approaches for Balancing Performance and Theoretical Guarantees in Linear Bandits	Jun 26, 2023	Decision MakingThompson Sampling	—Unverified
Scalable Neural Contextual Bandit for Recommender Systems	Jun 26, 2023	Recommendation SystemsThompson Sampling	—Unverified
Langevin Thompson Sampling with Logarithmic Communication: Bandits and Reinforcement Learning	Jun 15, 2023	Decision MakingMulti-Armed Bandits	—Unverified
Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space	Jun 5, 2023	Thompson Sampling	—Unverified
Incentivizing Exploration with Linear Contexts and Combinatorial Actions	Jun 3, 2023	Thompson Sampling	—Unverified
ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages	Jun 2, 2023	Bayesian Inferencecontinuous-control	CodeCode Available
Combinatorial Neural Bandits	May 31, 2023	Thompson Sampling	—Unverified
Practical Batch Bayesian Sampling Algorithms for Online Adaptive Traffic Experimentation	May 24, 2023	Thompson Sampling	—Unverified
Discounted Thompson Sampling for Non-Stationary Bandit Problems	May 18, 2023	Thompson Sampling	—Unverified

Show:10 25 50

← PrevPage 4 of 14Next →

No leaderboard results yet.