Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 226–250 of 655 papers

Title	Date	Tasks	Status
Efficient Exploration for LLMs	Feb 1, 2024	Efficient ExplorationThompson Sampling	—Unverified
Efficient exploration of zero-sum stochastic games	Feb 24, 2020	Efficient ExplorationThompson Sampling	—Unverified
Counterfactual Inference under Thompson Sampling	Apr 3, 2025	Causal Inferencecounterfactual	—Unverified
Efficient exploration with Double Uncertain Value Networks	Nov 29, 2017	Efficient ExplorationReinforcement Learning	—Unverified
Efficient Inference Without Trading-off Regret in Bandits: An Allocation Probability Test for Thompson Sampling	Oct 30, 2021	Thompson Sampling	—Unverified
Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget	Jun 3, 2025	Thompson Sampling	—Unverified
Efficient Learning in Large-Scale Combinatorial Semi-Bandits	Jun 28, 2014	Thompson Sampling	—Unverified
Counterfactual Data-Fusion for Online Reinforcement Learners	Aug 1, 2017	counterfactualDecision Making	—Unverified
Efficient Model-Based Reinforcement Learning Through Optimistic Thompson Sampling	Oct 7, 2024	continuous-controlContinuous Control	—Unverified
Efficient Multivariate Bandit Algorithm with Path Planning	Sep 6, 2019	Heuristic SearchThompson Sampling	—Unverified
Efficient Online Learning for Cognitive Radar-Cellular Coexistence via Contextual Thompson Sampling	Aug 24, 2020	Deep Reinforcement LearningThompson Sampling	—Unverified
Asymptotically Optimal Bandits under Weighted Information	May 28, 2021	Thompson Sampling	—Unverified
Efficient Thompson Sampling for Online Matrix-Factorization Recommendation	Dec 1, 2015	Collaborative FilteringRecommendation Systems	—Unverified
A General Theory of the Stochastic Linear Bandit and Its Applications	Feb 12, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Eluder Dimension and the Sample Complexity of Optimistic Exploration	Dec 1, 2013	Thompson Sampling	—Unverified
ε-Neural Thompson Sampling of Deep Brain Stimulation for Parkinson Disease Treatment	Mar 11, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Ensemble Sampling	May 20, 2017	Thompson Sampling	—Unverified
Cost-efficient Knowledge-based Question Answering with Large Language Models	May 27, 2024	Knowledge GraphsModel Selection	—Unverified
Epsilon-Greedy Thompson Sampling to Bayesian Optimization	Mar 1, 2024	Bayesian OptimizationCantilever Beam	—Unverified
Cost Aware Asynchronous Multi-Agent Active Search	Oct 5, 2022	Decision MakingThompson Sampling	—Unverified
Estimating prediction error for complex samples	Nov 13, 2017	PredictionSurvey	—Unverified
Asymptotically Optimal Algorithms for Budgeted Multiple Play Bandits	Jun 30, 2016	Thompson Sampling	—Unverified
Etat de l'art sur l'application des bandits multi-bras	Jan 4, 2021	Thompson Sampling	—Unverified
EVaDE : Event-Based Variational Thompson Sampling for Model-Based Reinforcement Learning	Jan 16, 2025	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Convolutional Monte Carlo Rollouts in Go	Dec 10, 2015	GPUThompson Sampling	—Unverified

Show:10 25 50

← PrevPage 10 of 27Next →

No leaderboard results yet.