Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 655 papers

Title	Date	Tasks	Status
Bayesian Collaborative Bandits with Thompson Sampling for Improved Outreach in Maternal Health Program	Oct 28, 2024	Matrix CompletionThompson Sampling	—Unverified
Robust Thompson Sampling Algorithms Against Reward Poisoning Attacks	Oct 25, 2024	Decision MakingSequential Decision Making	—Unverified
Distributed Thompson sampling under constrained communication	Oct 21, 2024	Bayesian OptimizationThompson Sampling	CodeCode Available
Aligning AI Agents via Information-Directed Sampling	Oct 18, 2024	Thompson Sampling	—Unverified
Queueing Matching Bandits with Preference Feedback	Oct 14, 2024	Thompson Sampling	CodeCode Available
Combinatorial Multi-armed Bandits: Arm Selection via Group Testing	Oct 14, 2024	Multi-Armed Banditsparameter estimation	—Unverified
Gaussian Process Thompson Sampling via Rootfinding	Oct 10, 2024	Bayesian OptimizationDecision Making	—Unverified
Contextual Bandits with Non-Stationary Correlated Rewards for User Association in MmWave Vehicular Networks	Oct 8, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Efficient Model-Based Reinforcement Learning Through Optimistic Thompson Sampling	Oct 7, 2024	continuous-controlContinuous Control	—Unverified
Thompson Sampling For Combinatorial Bandits: Polynomial Regret and Mismatched Sampling Paradox	Oct 7, 2024	Thompson Sampling	CodeCode Available
Improving Portfolio Optimization Results with Bandit Networks	Oct 5, 2024	Portfolio OptimizationRecommendation Systems	CodeCode Available
Partially Observable Contextual Bandits with Linear Payoffs	Sep 17, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Modified Meta-Thompson Sampling for Linear Bandits and Its Bayes Regret Analysis	Sep 10, 2024	Meta-LearningMulti-Armed Bandits	—Unverified
Sliding-Window Thompson Sampling for Non-Stationary Settings	Sep 8, 2024	Decision MakingSequential Decision Making	—Unverified
Multi-Task Combinatorial Bandits for Budget Allocation	Aug 31, 2024	Gaussian ProcessesMarketing	—Unverified
Improving Thompson Sampling via Information Relaxation for Budgeted Multi-armed Bandits	Aug 28, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
An Extremely Data-efficient and Generative LLM-based Reinforcement Learning Agent for Recommenders	Aug 28, 2024	Recommendation SystemsThompson Sampling	—Unverified
Contextual Bandit with Herding Effects: Algorithms and Recommendation Applications	Aug 26, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Constructing Adversarial Examples for Vertical Federated Learning: Optimal Client Corruption through Multi-Armed Bandit	Aug 8, 2024	Federated LearningThompson Sampling	CodeCode Available
Optimization-Driven Adaptive Experimentation	Aug 8, 2024	GPUThompson Sampling	—Unverified
Anytime Multi-Agent Path Finding with an Adaptive Delay-Based Heuristic	Aug 6, 2024	Multi-Agent Path FindingSelf-Learning	CodeCode Available
Process-constrained batch Bayesian approaches for yield optimization in multi-reactor systems	Aug 5, 2024	Bayesian OptimizationThompson Sampling	CodeCode Available
Neural Dueling Bandits: Preference-Based Optimization with Human Feedback	Jul 24, 2024	Thompson Sampling	—Unverified
Thompson Sampling Itself is Differentially Private	Jul 20, 2024	Thompson Sampling	—Unverified
Scalable Exploration via Ensemble++	Jul 18, 2024	Computational EfficiencyDecision Making	CodeCode Available

Show:10 25 50

← PrevPage 4 of 27Next →

No leaderboard results yet.