Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 655 papers

Title	Date	Tasks	Status
Counterfactual Inference under Thompson Sampling	Apr 3, 2025	Causal Inferencecounterfactual	—Unverified
Sparse Nonparametric Contextual Bandits	Mar 20, 2025	Multi-Armed BanditsThompson Sampling	—Unverified
Bandit-Based Prompt Design Strategy Selection Improves Prompt Optimizers	Mar 3, 2025	Prompt EngineeringThompson Sampling	CodeCode Available
Achieving adaptivity and optimality for multi-armed bandits using Exponential-Kullback Leibler Maillard Sampling	Feb 20, 2025	Multi-Armed BanditsThompson Sampling	—Unverified
An Adversarial Analysis of Thompson Sampling for Full-information Online Learning: from Finite to Infinite Action Spaces	Feb 20, 2025	Bayesian OptimizationThompson Sampling	—Unverified
Uncertainty-Aware Search and Value Models: Mitigating Search Scaling Flaws in LLMs	Feb 16, 2025	GSM8KThompson Sampling	—Unverified
When and why randomised exploration works (in linear bandits)	Feb 13, 2025	Thompson Sampling	—Unverified
KABB: Knowledge-Aware Bayesian Bandits for Dynamic Expert Coordination in Multi-Agent Systems	Feb 11, 2025	Thompson Sampling	—Unverified
Contextual Thompson Sampling via Generation of Missing Data	Feb 10, 2025	Decision MakingFairness	—Unverified
An Information-Theoretic Analysis of Thompson Sampling with Infinite Action Spaces	Feb 4, 2025	Thompson Sampling	—Unverified
FedRTS: Federated Robust Pruning via Combinatorial Thompson Sampling	Jan 31, 2025	Federated LearningThompson Sampling	CodeCode Available
Active RLHF via Best Policy Learning from Trajectory Preference Feedback	Jan 31, 2025	Thompson Sampling	—Unverified
EVaDE : Event-Based Variational Thompson Sampling for Model-Based Reinforcement Learning	Jan 16, 2025	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Stochastically Constrained Best Arm Identification with Thompson Sampling	Jan 7, 2025	Thompson Sampling	—Unverified
Truthful mechanisms for linear bandit games with private contexts	Jan 7, 2025	Thompson Sampling	—Unverified
WAPTS: A Weighted Allocation Probability Adjusted Thompson Sampling Algorithm for High-Dimensional and Sparse Experiment Settings	Jan 7, 2025	Thompson Sampling	—Unverified
On Improved Regret Bounds In Bayesian Optimization with Gaussian Noise	Dec 25, 2024	Bayesian OptimizationThompson Sampling	—Unverified
Generalized Bayesian deep reinforcement learning	Dec 16, 2024	Deep Reinforcement Learningreinforcement-learning	—Unverified
An Information-Theoretic Analysis of Thompson Sampling for Logistic Bandits	Dec 3, 2024	Thompson Sampling	—Unverified
BOTS: Batch Bayesian Optimization of Extended Thompson Sampling for Severely Episode-Limited RL Settings	Nov 30, 2024	Bayesian OptimizationPolicy Gradient Methods	—Unverified
Fast, Precise Thompson Sampling for Bayesian Optimization	Nov 26, 2024	Bayesian OptimizationSTS	CodeCode Available
Epinet for Content Cold Start	Nov 20, 2024	Recommendation SystemsThompson Sampling	—Unverified
Minimum Empirical Divergence for Sub-Gaussian Linear Bandits	Oct 31, 2024	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Planning and Learning in Risk-Aware Restless Multi-Arm Bandit Problem	Oct 30, 2024	SchedulingThompson Sampling	—Unverified
BanditCAT and AutoIRT: Machine Learning Approaches to Computerized Adaptive Testing and Item Calibration	Oct 28, 2024	AutoMLThompson Sampling	—Unverified
Bayesian Collaborative Bandits with Thompson Sampling for Improved Outreach in Maternal Health Program	Oct 28, 2024	Matrix CompletionThompson Sampling	—Unverified
Robust Thompson Sampling Algorithms Against Reward Poisoning Attacks	Oct 25, 2024	Decision MakingSequential Decision Making	—Unverified
Distributed Thompson sampling under constrained communication	Oct 21, 2024	Bayesian OptimizationThompson Sampling	CodeCode Available
Aligning AI Agents via Information-Directed Sampling	Oct 18, 2024	Thompson Sampling	—Unverified
Queueing Matching Bandits with Preference Feedback	Oct 14, 2024	Thompson Sampling	CodeCode Available
Combinatorial Multi-armed Bandits: Arm Selection via Group Testing	Oct 14, 2024	Multi-Armed Banditsparameter estimation	—Unverified
Gaussian Process Thompson Sampling via Rootfinding	Oct 10, 2024	Bayesian OptimizationDecision Making	—Unverified
Contextual Bandits with Non-Stationary Correlated Rewards for User Association in MmWave Vehicular Networks	Oct 8, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Efficient Model-Based Reinforcement Learning Through Optimistic Thompson Sampling	Oct 7, 2024	continuous-controlContinuous Control	—Unverified
Thompson Sampling For Combinatorial Bandits: Polynomial Regret and Mismatched Sampling Paradox	Oct 7, 2024	Thompson Sampling	CodeCode Available
Improving Portfolio Optimization Results with Bandit Networks	Oct 5, 2024	Portfolio OptimizationRecommendation Systems	CodeCode Available
Partially Observable Contextual Bandits with Linear Payoffs	Sep 17, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Modified Meta-Thompson Sampling for Linear Bandits and Its Bayes Regret Analysis	Sep 10, 2024	Meta-LearningMulti-Armed Bandits	—Unverified
Sliding-Window Thompson Sampling for Non-Stationary Settings	Sep 8, 2024	Decision MakingSequential Decision Making	—Unverified
Multi-Task Combinatorial Bandits for Budget Allocation	Aug 31, 2024	Gaussian ProcessesMarketing	—Unverified
Improving Thompson Sampling via Information Relaxation for Budgeted Multi-armed Bandits	Aug 28, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
An Extremely Data-efficient and Generative LLM-based Reinforcement Learning Agent for Recommenders	Aug 28, 2024	Recommendation SystemsThompson Sampling	—Unverified
Contextual Bandit with Herding Effects: Algorithms and Recommendation Applications	Aug 26, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Constructing Adversarial Examples for Vertical Federated Learning: Optimal Client Corruption through Multi-Armed Bandit	Aug 8, 2024	Federated LearningThompson Sampling	CodeCode Available
Optimization-Driven Adaptive Experimentation	Aug 8, 2024	GPUThompson Sampling	—Unverified
Anytime Multi-Agent Path Finding with an Adaptive Delay-Based Heuristic	Aug 6, 2024	Multi-Agent Path FindingSelf-Learning	CodeCode Available
Process-constrained batch Bayesian approaches for yield optimization in multi-reactor systems	Aug 5, 2024	Bayesian OptimizationThompson Sampling	CodeCode Available
Neural Dueling Bandits: Preference-Based Optimization with Human Feedback	Jul 24, 2024	Thompson Sampling	—Unverified
Thompson Sampling Itself is Differentially Private	Jul 20, 2024	Thompson Sampling	—Unverified
Scalable Exploration via Ensemble++	Jul 18, 2024	Computational EfficiencyDecision Making	CodeCode Available

Show:10 25 50

← PrevPage 2 of 14Next →

No leaderboard results yet.