Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–225 of 655 papers

Title	Date	Tasks	Status
Diffusion Models Meet Contextual Bandits with Large Action Spaces	Feb 15, 2024	Efficient ExplorationMulti-Armed Bandits	—Unverified
DISCO: An End-to-End Bandit Framework for Personalised Discount Allocation	Jun 10, 2024	Thompson Sampling	—Unverified
The Choice of Noninformative Priors for Thompson Sampling in Multiparameter Bandit Models	Feb 28, 2023	Multi-Armed BanditsThompson Sampling	—Unverified
Distilled Thompson Sampling: Practical and Efficient Thompson Sampling via Imitation Learning	Nov 29, 2020	Action GenerationDecision Making	—Unverified
A General Recipe for the Analysis of Randomized Multi-Armed Bandit Algorithms	Mar 10, 2023	Thompson Sampling	—Unverified
Towards Efficient and Optimal Covariance-Adaptive Algorithms for Combinatorial Semi-Bandits	Feb 23, 2024	Thompson Sampling	—Unverified
Diversified Sampling for Batched Bayesian Optimization with Determinantal Point Processes	Oct 22, 2021	Bayesian OptimizationDiversity	—Unverified
Double Doubly Robust Thompson Sampling for Generalized Linear Contextual Bandits	Sep 15, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Double-Linear Thompson Sampling for Context-Attentive Bandits	Oct 15, 2020	Medical DiagnosisThompson Sampling	—Unverified
Counterfactual Inference under Thompson Sampling	Apr 3, 2025	Causal Inferencecounterfactual	—Unverified
Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget	Jun 3, 2025	Thompson Sampling	—Unverified
Double Thompson Sampling in Finite stochastic Games	Feb 21, 2022	Thompson Sampling	—Unverified
Online Multi-Armed Bandits with Adaptive Inference	Feb 25, 2021	Causal InferenceDecision Making	—Unverified
Doubly robust Thompson sampling for linear payoffs	Feb 1, 2021	Thompson Sampling	—Unverified
Doubly Robust Thompson Sampling with Linear Payoffs	Dec 1, 2021	Thompson Sampling	—Unverified
DRL-based Joint Resource Scheduling of eMBB and URLLC in O-RAN	Jul 16, 2024	Decision MakingDeep Reinforcement Learning	—Unverified
Dual-Directed Algorithm Design for Efficient Pure Exploration	Oct 30, 2023	Thompson Sampling	—Unverified
Counterfactual Data-Fusion for Online Reinforcement Learners	Aug 1, 2017	counterfactualDecision Making	—Unverified
Dynamic collaborative filtering Thompson Sampling for cross-domain advertisements recommendation	Aug 25, 2022	Collaborative FilteringRecommendation Systems	—Unverified
Dynamic Decision-Making under Model Misspecification	May 20, 2025	Decision Makingmodel	—Unverified
Asymptotically Optimal Bandits under Weighted Information	May 28, 2021	Thompson Sampling	—Unverified
A General Theory of the Stochastic Linear Bandit and Its Applications	Feb 12, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Effects of Model Misspecification on Bayesian Bandits: Case Studies in UX Optimization	Oct 7, 2020	Thompson Sampling	—Unverified
Efficient and Adaptive Posterior Sampling Algorithms for Bandits	May 2, 2024	Thompson Sampling	—Unverified
Cost-efficient Knowledge-based Question Answering with Large Language Models	May 27, 2024	Knowledge GraphsModel Selection	—Unverified

Show:10 25 50

← PrevPage 9 of 27Next →

No leaderboard results yet.