Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 655 papers

Title	Date	Tasks	Status	Hype	Score
Neural Thompson Sampling	Oct 2, 2020	Multi-Armed BanditsThompson Sampling	CodeCode Available	1	5
Batched Bayesian optimization by maximizing the probability of including the optimum	Oct 8, 2024	Bayesian OptimizationDiversity	CodeCode Available	1	5
Evaluating Deep Vs. Wide & Deep Learners As Contextual Bandits For Personalized Email Promo Recommendations	Jan 31, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available	0	5
ESCADA: Efficient Safety and Context Aware Dose Allocation for Precision Medicine	Nov 26, 2021	Thompson Sampling	CodeCode Available	0	5
Evolutionary Multi-Armed Bandits with Genetic Thompson Sampling	Apr 26, 2022	Decision MakingEvolutionary Algorithms	CodeCode Available	0	5
Scalable Exploration via Ensemble++	Jul 18, 2024	Computational EfficiencyDecision Making	CodeCode Available	0	5
Efficient Exploration through Bayesian Deep Q-Networks	Feb 13, 2018	Atari GamesEfficient Exploration	CodeCode Available	0	5
Efficient Optimal Selection for Composited Advertising Creatives with Tree Structure	Mar 2, 2021	Efficient ExplorationThompson Sampling	CodeCode Available	0	5
Modeling Human Exploration Through Resource-Rational Reinforcement Learning	Jan 27, 2022	Meta-Learningreinforcement-learning	CodeCode Available	0	5
Dynamic Assortment Selection and Pricing with Censored Preference Feedback	Apr 3, 2025	Thompson Sampling	CodeCode Available	0	5
Double Thompson Sampling for Dueling Bandits	Apr 25, 2016	Thompson Sampling	CodeCode Available	0	5
Distributed Thompson sampling under constrained communication	Oct 21, 2024	Bayesian OptimizationThompson Sampling	CodeCode Available	0	5
AIXIjs: A Software Demo for General Reinforcement Learning	May 22, 2017	General Reinforcement LearningOpenAI Gym	CodeCode Available	0	5
Differentially Private Online Bayesian Estimation With Adaptive Truncation	Jan 19, 2023	Privacy PreservingSensitivity	CodeCode Available	0	5
Two-sided Competing Matching Recommendation Markets With Quota and Complementary Preferences Constraints	Jan 24, 2023	Thompson Sampling	CodeCode Available	0	5
Fast, Precise Thompson Sampling for Bayesian Optimization	Nov 26, 2024	Bayesian OptimizationSTS	CodeCode Available	0	5
Adapting multi-armed bandits policies to contextual bandits scenarios	Nov 11, 2018	Binary ClassificationClassification	CodeCode Available	0	5
Cost-Efficient Online Decision Making: A Combinatorial Multi-Armed Bandit Approach	Aug 21, 2023	Decision MakingMulti-Armed Bandits	CodeCode Available	0	5
Causal Bandits for Linear Structural Equation Models	Aug 26, 2022	Thompson Sampling	CodeCode Available	0	5
Process-constrained batch Bayesian approaches for yield optimization in multi-reactor systems	Aug 5, 2024	Bayesian OptimizationThompson Sampling	CodeCode Available	0	5
Constructing Adversarial Examples for Vertical Federated Learning: Optimal Client Corruption through Multi-Armed Bandit	May 7, 2024	Federated LearningThompson Sampling	CodeCode Available	0	5
Constructing Adversarial Examples for Vertical Federated Learning: Optimal Client Corruption through Multi-Armed Bandit	Aug 8, 2024	Federated LearningThompson Sampling	CodeCode Available	0	5
RoME: A Robust Mixed-Effects Bandit Algorithm for Optimizing Mobile Health Interventions	Dec 11, 2023	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	0	5
Anytime Multi-Agent Path Finding with an Adaptive Delay-Based Heuristic	Aug 6, 2024	Multi-Agent Path FindingSelf-Learning	CodeCode Available	0	5
Bayesian Optimization for Categorical and Category-Specific Continuous Inputs	Nov 28, 2019	Bayesian OptimizationBIG-bench Machine Learning	CodeCode Available	0	5

Show:10 25 50

← PrevPage 2 of 27Next →

No leaderboard results yet.