Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 655 papers

Title	Date	Tasks	Status	Hype
Optimizing Posterior Samples for Bayesian Optimization via Rootfinding	Oct 29, 2024	Bayesian Optimizationglobal-optimization	CodeCode Available	1
Bayesian Collaborative Bandits with Thompson Sampling for Improved Outreach in Maternal Health Program	Oct 28, 2024	Matrix CompletionThompson Sampling	—Unverified	0
BanditCAT and AutoIRT: Machine Learning Approaches to Computerized Adaptive Testing and Item Calibration	Oct 28, 2024	AutoMLThompson Sampling	—Unverified	0
Robust Thompson Sampling Algorithms Against Reward Poisoning Attacks	Oct 25, 2024	Decision MakingSequential Decision Making	—Unverified	0
Distributed Thompson sampling under constrained communication	Oct 21, 2024	Bayesian OptimizationThompson Sampling	CodeCode Available	0
Aligning AI Agents via Information-Directed Sampling	Oct 18, 2024	Thompson Sampling	—Unverified	0
Queueing Matching Bandits with Preference Feedback	Oct 14, 2024	Thompson Sampling	CodeCode Available	0
Combinatorial Multi-armed Bandits: Arm Selection via Group Testing	Oct 14, 2024	Multi-Armed Banditsparameter estimation	—Unverified	0
Gaussian Process Thompson Sampling via Rootfinding	Oct 10, 2024	Bayesian OptimizationDecision Making	—Unverified	0
Batched Bayesian optimization by maximizing the probability of including the optimum	Oct 8, 2024	Bayesian OptimizationDiversity	CodeCode Available	1
Contextual Bandits with Non-Stationary Correlated Rewards for User Association in MmWave Vehicular Networks	Oct 8, 2024	Multi-Armed BanditsThompson Sampling	—Unverified	0
Thompson Sampling For Combinatorial Bandits: Polynomial Regret and Mismatched Sampling Paradox	Oct 7, 2024	Thompson Sampling	CodeCode Available	0
Efficient Model-Based Reinforcement Learning Through Optimistic Thompson Sampling	Oct 7, 2024	continuous-controlContinuous Control	—Unverified	0
Improving Portfolio Optimization Results with Bandit Networks	Oct 5, 2024	Portfolio OptimizationRecommendation Systems	CodeCode Available	0
Partially Observable Contextual Bandits with Linear Payoffs	Sep 17, 2024	Decision MakingMulti-Armed Bandits	—Unverified	0
Modified Meta-Thompson Sampling for Linear Bandits and Its Bayes Regret Analysis	Sep 10, 2024	Meta-LearningMulti-Armed Bandits	—Unverified	0
Sliding-Window Thompson Sampling for Non-Stationary Settings	Sep 8, 2024	Decision MakingSequential Decision Making	—Unverified	0
Multi-Task Combinatorial Bandits for Budget Allocation	Aug 31, 2024	Gaussian ProcessesMarketing	—Unverified	0
An Extremely Data-efficient and Generative LLM-based Reinforcement Learning Agent for Recommenders	Aug 28, 2024	Recommendation SystemsThompson Sampling	—Unverified	0
Improving Thompson Sampling via Information Relaxation for Budgeted Multi-armed Bandits	Aug 28, 2024	Multi-Armed BanditsThompson Sampling	—Unverified	0
Contextual Bandit with Herding Effects: Algorithms and Recommendation Applications	Aug 26, 2024	Multi-Armed BanditsThompson Sampling	—Unverified	0
Constructing Adversarial Examples for Vertical Federated Learning: Optimal Client Corruption through Multi-Armed Bandit	Aug 8, 2024	Federated LearningThompson Sampling	CodeCode Available	0
Optimization-Driven Adaptive Experimentation	Aug 8, 2024	GPUThompson Sampling	—Unverified	0
Anytime Multi-Agent Path Finding with an Adaptive Delay-Based Heuristic	Aug 6, 2024	Multi-Agent Path FindingSelf-Learning	CodeCode Available	0
Process-constrained batch Bayesian approaches for yield optimization in multi-reactor systems	Aug 5, 2024	Bayesian OptimizationThompson Sampling	CodeCode Available	0

Show:10 25 50

← PrevPage 3 of 27Next →

No leaderboard results yet.