Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 326–350 of 655 papers

Title	Date	Tasks	Status
Efficient Online Learning for Cognitive Radar-Cellular Coexistence via Contextual Thompson Sampling	Aug 24, 2020	Deep Reinforcement LearningThompson Sampling	—Unverified
Efficient Thompson Sampling for Online Matrix-Factorization Recommendation	Dec 1, 2015	Collaborative FilteringRecommendation Systems	—Unverified
Efficient-UCBV: An Almost Optimal Algorithm using Variance Estimates	Nov 9, 2017	Thompson Sampling	—Unverified
Eluder Dimension and the Sample Complexity of Optimistic Exploration	Dec 1, 2013	Thompson Sampling	—Unverified
ε-Neural Thompson Sampling of Deep Brain Stimulation for Parkinson Disease Treatment	Mar 11, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Ensemble Sampling	May 20, 2017	Thompson Sampling	—Unverified
Epinet for Content Cold Start	Nov 20, 2024	Recommendation SystemsThompson Sampling	—Unverified
Epsilon-Greedy Thompson Sampling to Bayesian Optimization	Mar 1, 2024	Bayesian OptimizationCantilever Beam	—Unverified
Estimating prediction error for complex samples	Nov 13, 2017	PredictionSurvey	—Unverified
Estimating Quality in Multi-Objective Bandits Optimization	Jan 4, 2017	Thompson Sampling	—Unverified
Etat de l'art sur l'application des bandits multi-bras	Jan 4, 2021	Thompson Sampling	—Unverified
EVaDE : Event-Based Variational Thompson Sampling for Model-Based Reinforcement Learning	Jan 16, 2025	Model-based Reinforcement Learningreinforcement-learning	—Unverified
From Predictions to Decisions: The Importance of Joint Predictive Distributions	Jul 20, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
Evaluation of Explore-Exploit Policies in Multi-result Ranking Systems	Apr 28, 2015	News RecommendationThompson Sampling	—Unverified
Expected Improvement-based Contextual Bandits	Sep 29, 2021	Bayesian OptimizationMulti-Armed Bandits	—Unverified
Exploiting correlation and budget constraints in Bayesian multi-armed bandit optimization	Mar 27, 2013	Bayesian OptimizationThompson Sampling	—Unverified
A Unified Approach to Translate Classical Bandit Algorithms to the Structured Bandit Setting	Oct 18, 2018	Thompson Sampling	—Unverified
Exploration for Multi-task Reinforcement Learning with Deep Generative Models	Nov 29, 2016	reinforcement-learningReinforcement Learning	—Unverified
Exploration via linearly perturbed loss minimisation	Nov 13, 2023	Thompson Sampling	—Unverified
Fast online inference for nonlinear contextual bandit based on Generative Adversarial Network	Feb 17, 2022	Bayesian InferenceGenerative Adversarial Network	—Unverified
Online Learning with Cumulative Oversampling: Application to Budgeted Influence Maximization	Apr 24, 2020	Thompson Sampling	—Unverified
Feel-Good Thompson Sampling for Contextual Bandits and Reinforcement Learning	Oct 2, 2021	Multi-Armed Banditsregression	—Unverified
Feel-Good Thompson Sampling for Contextual Dueling Bandits	Apr 9, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Finite-Time Regret of Thompson Sampling Algorithms for Exponential Family Multi-Armed Bandits	Jun 7, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
First-Order Bayesian Regret Analysis of Thompson Sampling	Feb 2, 2019	Combinatorial OptimizationThompson Sampling	—Unverified

Show:10 25 50

← PrevPage 14 of 27Next →

No leaderboard results yet.