Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 426–450 of 655 papers

Title	Date	Tasks	Status
Meta-Reinforcement Learning With Informed Policy Regularization	Jan 1, 2021	Meta Reinforcement Learningreinforcement-learning	—Unverified
Meta-Thompson Sampling	Feb 11, 2021	Efficient ExplorationMeta-Learning	—Unverified
Minimal Exploration in Structured Stochastic Bandits	Nov 1, 2017	Thompson Sampling	—Unverified
TS-RSR: A provably efficient approach for batch Bayesian Optimization	Mar 7, 2024	Bayesian OptimizationThompson Sampling	—Unverified
Mixed-Variable Bayesian Optimization	Jul 2, 2019	Bayesian OptimizationThompson Sampling	—Unverified
Model-based Meta Reinforcement Learning using Graph Structured Surrogate Models	Feb 16, 2021	Decision MakingMeta Reinforcement Learning	—Unverified
Model-Free Approximate Bayesian Learning for Large-Scale Conversion Funnel Optimization	Jan 12, 2024	Decision MakingMarketing	—Unverified
Modified Meta-Thompson Sampling for Linear Bandits and Its Bayes Regret Analysis	Sep 10, 2024	Meta-LearningMulti-Armed Bandits	—Unverified
Module-wise Adaptive Distillation for Multimodality Foundation Models	Oct 6, 2023	Image CaptioningThompson Sampling	—Unverified
Monte Carlo Tree Search Algorithms for Risk-Aware and Multi-Objective Reinforcement Learning	Nov 23, 2022	Multi-Objective Reinforcement Learningreinforcement-learning	—Unverified
Monte-Carlo tree search with uncertainty propagation via optimal transport	Sep 19, 2023	Thompson Sampling	—Unverified
MOTS: Minimax Optimal Thompson Sampling	Mar 3, 2020	Thompson Sampling	—Unverified
Multi-Agent Active Search using Detection and Location Uncertainty	Mar 9, 2022	Decision MakingDisaster Response	—Unverified
Multi-armed Bandit Algorithms on System-on-Chip: Go Frequentist or Bayesian?	Jun 5, 2021	Thompson Sampling	—Unverified
Multi-Armed Bandit Strategies for Non-Stationary Reward Distributions and Delayed Feedback Processes	Feb 22, 2019	Thompson Sampling	—Unverified
Multi-armed Bandits with Cost Subsidy	Nov 3, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Multi-dueling Bandits with Dependent Arms	Apr 29, 2017	Thompson Sampling	—Unverified
Multi-Task Combinatorial Bandits for Budget Allocation	Aug 31, 2024	Gaussian ProcessesMarketing	—Unverified
Near Optimal Adversarial Attacks on Stochastic Bandits and Defenses with Smoothed Responses	Aug 21, 2020	Adversarial AttackThompson Sampling	—Unverified
Neural Contextual Bandits Under Delayed Feedback Constraints	Apr 16, 2025	Multi-Armed BanditsRecommendation Systems	—Unverified
Neural Dueling Bandits: Preference-Based Optimization with Human Feedback	Jul 24, 2024	Thompson Sampling	—Unverified
Neural Model-based Optimization with Right-Censored Observations	Sep 29, 2020	modelregression	—Unverified
New Insights into Bootstrapping for Bandits	May 24, 2018	Thompson Sampling	—Unverified
No Algorithmic Collusion in Two-Player Blindfolded Game with Thompson Sampling	May 23, 2024	Thompson Sampling	—Unverified
Nonparametric General Reinforcement Learning	Nov 28, 2016	General Reinforcement Learningreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 18 of 27Next →

No leaderboard results yet.