Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 655 papers

Title	Date	Tasks	Status	Hype
Robust Policy Switching for Antifragile Reinforcement Learning for UAV Deconfliction in Adversarial Environments	Jun 26, 2025	Reinforcement Learning (RL)Thompson Sampling	—Unverified	0
Context Attribution with Multi-Armed Bandit Optimization	Jun 24, 2025	Thompson Sampling	—Unverified	0
Adaptive Data Augmentation for Thompson Sampling	Jun 17, 2025	Data AugmentationMulti-Armed Bandits	—Unverified	0
Bayesian Optimization with Inexact Acquisition: Is Random Grid Search Sufficient?	Jun 13, 2025	Bayesian OptimizationThompson Sampling	—Unverified	0
Efficient kernelized bandit algorithms via exploration distributions	Jun 11, 2025	Thompson Sampling	—Unverified	0
Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget	Jun 3, 2025	Thompson Sampling	—Unverified	0
Simplifying Bayesian Optimization Via In-Context Direct Optimum Sampling	May 29, 2025	Bayesian OptimizationThompson Sampling	—Unverified	0
Thompson Sampling in Online RLHF with General Function Approximation	May 29, 2025	Thompson Sampling	—Unverified	0
Stable Thompson Sampling: Valid Inference via Variance Inflation	May 29, 2025	Decision MakingThompson Sampling	—Unverified	0
Practical Adversarial Attacks on Stochastic Bandits via Fake Data Injection	May 28, 2025	Thompson Sampling	—Unverified	0
Representative Action Selection for Large Action-Space Meta-Bandits	May 23, 2025	Thompson Sampling	CodeCode Available	0
Deconfounded Warm-Start Thompson Sampling with Applications to Precision Medicine	May 22, 2025	Thompson Sampling	—Unverified	0
Scalable and Interpretable Contextual Bandits: A Literature Review and Retail Offer Prototype	May 22, 2025	Feature EngineeringLarge Language Model	—Unverified	0
Generator-Mediated Bandits: Thompson Sampling for GenAI-Powered Adaptive Interventions	May 22, 2025	Large Language ModelThompson Sampling	—Unverified	0
In-Domain African Languages Translation Using LLMs and Multi-armed Bandits	May 21, 2025	Domain AdaptationMachine Translation	—Unverified	0
Steering Generative Models with Experimental Data for Protein Fitness Optimization	May 21, 2025	Bayesian OptimizationThompson Sampling	CodeCode Available	1
Dynamic Decision-Making under Model Misspecification	May 20, 2025	Decision Makingmodel	—Unverified	0
Addressing Missing Data Issue for Diffusion-based Recommendation	May 18, 2025	DenoisingThompson Sampling	CodeCode Available	0
Thompson Sampling-like Algorithms for Stochastic Rising Bandits	May 17, 2025	Model SelectionThompson Sampling	—Unverified	0
Leveraging Offline Data from Similar Systems for Online Linear Quadratic Control	May 14, 2025	Thompson Sampling	—Unverified	0
Connecting Thompson Sampling and UCB: Towards More Efficient Trade-offs Between Privacy and Regret	May 5, 2025	Thompson Sampling	—Unverified	0
Bayesian learning of the optimal action-value function in a Markov decision process	May 3, 2025	Decision MakingSequential Decision Making	—Unverified	0
Neural Contextual Bandits Under Delayed Feedback Constraints	Apr 16, 2025	Multi-Armed BanditsRecommendation Systems	—Unverified	0
Counterfactual Inference under Thompson Sampling	Apr 3, 2025	Causal Inferencecounterfactual	—Unverified	0
Dynamic Assortment Selection and Pricing with Censored Preference Feedback	Apr 3, 2025	Thompson Sampling	CodeCode Available	0
Sparse Nonparametric Contextual Bandits	Mar 20, 2025	Multi-Armed BanditsThompson Sampling	—Unverified	0
Bandit-Based Prompt Design Strategy Selection Improves Prompt Optimizers	Mar 3, 2025	Prompt EngineeringThompson Sampling	CodeCode Available	0
Achieving adaptivity and optimality for multi-armed bandits using Exponential-Kullback Leibler Maillard Sampling	Feb 20, 2025	Multi-Armed BanditsThompson Sampling	—Unverified	0
An Adversarial Analysis of Thompson Sampling for Full-information Online Learning: from Finite to Infinite Action Spaces	Feb 20, 2025	Bayesian OptimizationThompson Sampling	—Unverified	0
Uncertainty-Aware Search and Value Models: Mitigating Search Scaling Flaws in LLMs	Feb 16, 2025	GSM8KThompson Sampling	—Unverified	0
When and why randomised exploration works (in linear bandits)	Feb 13, 2025	Thompson Sampling	—Unverified	0
KABB: Knowledge-Aware Bayesian Bandits for Dynamic Expert Coordination in Multi-Agent Systems	Feb 11, 2025	Thompson Sampling	—Unverified	0
Contextual Thompson Sampling via Generation of Missing Data	Feb 10, 2025	Decision MakingFairness	—Unverified	0
An Information-Theoretic Analysis of Thompson Sampling with Infinite Action Spaces	Feb 4, 2025	Thompson Sampling	—Unverified	0
Active RLHF via Best Policy Learning from Trajectory Preference Feedback	Jan 31, 2025	Thompson Sampling	—Unverified	0
FedRTS: Federated Robust Pruning via Combinatorial Thompson Sampling	Jan 31, 2025	Federated LearningThompson Sampling	CodeCode Available	0
Langevin Soft Actor-Critic: Efficient Exploration through Uncertainty-Driven Critic Learning	Jan 29, 2025	continuous-controlContinuous Control	CodeCode Available	1
EVaDE : Event-Based Variational Thompson Sampling for Model-Based Reinforcement Learning	Jan 16, 2025	Model-based Reinforcement Learningreinforcement-learning	—Unverified	0
Stochastically Constrained Best Arm Identification with Thompson Sampling	Jan 7, 2025	Thompson Sampling	—Unverified	0
Truthful mechanisms for linear bandit games with private contexts	Jan 7, 2025	Thompson Sampling	—Unverified	0
WAPTS: A Weighted Allocation Probability Adjusted Thompson Sampling Algorithm for High-Dimensional and Sparse Experiment Settings	Jan 7, 2025	Thompson Sampling	—Unverified	0
On Improved Regret Bounds In Bayesian Optimization with Gaussian Noise	Dec 25, 2024	Bayesian OptimizationThompson Sampling	—Unverified	0
Generalized Bayesian deep reinforcement learning	Dec 16, 2024	Deep Reinforcement Learningreinforcement-learning	—Unverified	0
An Information-Theoretic Analysis of Thompson Sampling for Logistic Bandits	Dec 3, 2024	Thompson Sampling	—Unverified	0
BOTS: Batch Bayesian Optimization of Extended Thompson Sampling for Severely Episode-Limited RL Settings	Nov 30, 2024	Bayesian OptimizationPolicy Gradient Methods	—Unverified	0
Fast, Precise Thompson Sampling for Bayesian Optimization	Nov 26, 2024	Bayesian OptimizationSTS	CodeCode Available	0
Epinet for Content Cold Start	Nov 20, 2024	Recommendation SystemsThompson Sampling	—Unverified	0
Sample-Efficient Alignment for LLMs	Nov 3, 2024	Thompson Sampling	CodeCode Available	4
Minimum Empirical Divergence for Sub-Gaussian Linear Bandits	Oct 31, 2024	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	0
Planning and Learning in Risk-Aware Restless Multi-Arm Bandit Problem	Oct 30, 2024	SchedulingThompson Sampling	—Unverified	0

Show:10 25 50

← PrevPage 1 of 14Next →

No leaderboard results yet.