Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–525 of 655 papers

Title	Date	Tasks	Status
Thompson Sampling with Virtual Helping Agents	Sep 16, 2022	Decision MakingSequential Decision Making	—Unverified
Time-Sensitive Bandit Learning and Satisficing Thompson Sampling	Apr 28, 2017	Thompson Sampling	—Unverified
Top Two Algorithms Revisited	Jun 13, 2022	Thompson SamplingVocal Bursts Valence Prediction	—Unverified
Towards Optimal Algorithms for Prediction with Expert Advice	Sep 10, 2014	PredictionThompson Sampling	—Unverified
Towards Scalable and Robust Structured Bandits: A Meta-Learning Framework	Feb 26, 2022	Meta-LearningThompson Sampling	—Unverified
Tree Ensembles for Contextual Bandits	Feb 10, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Truthful mechanisms for linear bandit games with private contexts	Jan 7, 2025	Thompson Sampling	—Unverified
TSEB: More Efficient Thompson Sampling for Policy Learning	Oct 10, 2015	Thompson Sampling	—Unverified
TSEC: a framework for online experimentation under experimental constraints	Jan 17, 2021	Portfolio OptimizationThompson Sampling	—Unverified
TS-UCB: Improving on Thompson Sampling With Little to No Additional Computation	Jun 11, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Two-Stage Resource Allocation in Reconfigurable Intelligent Surface Assisted Hybrid Networks via Multi-Player Bandits	Jun 9, 2024	Thompson Sampling	—Unverified
Uncertainty-Aware Search and Value Models: Mitigating Search Scaling Flaws in LLMs	Feb 16, 2025	GSM8KThompson Sampling	—Unverified
Understanding the Training and Generalization of Pretrained Transformer for Sequential Decision Making	May 23, 2024	Decision MakingSequential Decision Making	—Unverified
Reinforcement Learning in Credit Scoring and Underwriting	Dec 15, 2022	Decision MakingEfficient Exploration	—Unverified
Unimodal Thompson Sampling for Graph-Structured Arms	Nov 17, 2016	Thompson Sampling	—Unverified
Using Adaptive Experiments to Rapidly Help Students	Aug 10, 2022	Thompson Sampling	—Unverified
Variable Selection via Thompson Sampling	Jul 1, 2020	BIG-bench Machine LearningInterpretable Machine Learning	—Unverified
Variational Bayesian Optimistic Sampling	Oct 29, 2021	Thompson Sampling	—Unverified
WAPTS: A Weighted Allocation Probability Adjusted Thompson Sampling Algorithm for High-Dimensional and Sparse Experiment Settings	Jan 7, 2025	Thompson Sampling	—Unverified
When and Whom to Collaborate with in a Changing Environment: A Collaborative Dynamic Bandit Solution	Apr 14, 2021	Bayesian InferenceCollaborative Filtering	—Unverified
When and why randomised exploration works (in linear bandits)	Feb 13, 2025	Thompson Sampling	—Unverified
When Combinatorial Thompson Sampling meets Approximation Regret	Feb 22, 2023	Thompson Sampling	—Unverified
Practical Batch Bayesian Sampling Algorithms for Online Adaptive Traffic Experimentation	May 24, 2023	Thompson Sampling	—Unverified
Zero-Inflated Bandits	Dec 25, 2023	Multi-Armed BanditsThompson Sampling	—Unverified
A Bandit Approach to Online Pricing for Heterogeneous Edge Resource Allocation	Feb 14, 2023	Edge-computingThompson Sampling	—Unverified

Show:10 25 50

← PrevPage 21 of 27Next →

No leaderboard results yet.