Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 626–650 of 655 papers

Title	Date	Tasks	Status
Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space	Jun 5, 2023	Thompson Sampling	—Unverified
Bayesian learning of the optimal action-value function in a Markov decision process	May 3, 2025	Decision MakingSequential Decision Making	—Unverified
Bayesian Mixture Modelling and Inference based Thompson Sampling in Monte-Carlo Tree Search	Dec 1, 2013	Thompson Sampling	—Unverified
Bayesian Optimization-Based Beam Alignment for MmWave MIMO Communication Systems	Jul 28, 2022	Bayesian OptimizationThompson Sampling	—Unverified
Bayesian Optimization with Inexact Acquisition: Is Random Grid Search Sufficient?	Jun 13, 2025	Bayesian OptimizationThompson Sampling	—Unverified
Bayesian Optimization with LLM-Based Acquisition Functions for Natural Language Preference Elicitation	May 2, 2024	Bayesian OptimizationConversational Recommendation	—Unverified
Bayesian Quantile and Expectile Optimisation	Jan 12, 2020	Bayesian OptimisationGaussian Processes	—Unverified
BBQ-Networks: Efficient Exploration in Deep Reinforcement Learning for Task-Oriented Dialogue Systems	Nov 15, 2017	Deep Reinforcement LearningEfficient Exploration	—Unverified
BBQ-Networks: Efficient Exploration in Deep Reinforcement Learning for Task-Oriented Dialogue Systems	Aug 17, 2016	Deep Reinforcement LearningEfficient Exploration	—Unverified
Belief Flows of Robust Online Learning	May 26, 2015	General Classificationregression	—Unverified
Best Arm Identification in Batched Multi-armed Bandit Problems	Dec 21, 2023	MarketingThompson Sampling	—Unverified
Active RLHF via Best Policy Learning from Trajectory Preference Feedback	Jan 31, 2025	Thompson Sampling	—Unverified
Better Optimism By Bayes: Adaptive Planning with Rich Models	Feb 9, 2014	Model-based Reinforcement LearningReinforcement Learning	—Unverified
Blind Exploration and Exploitation of Stochastic Experts	Apr 2, 2021	Thompson Sampling	—Unverified
Bootstrapped Thompson Sampling and Deep Exploration	Jul 1, 2015	reinforcement-learningReinforcement Learning	—Unverified
BOTS: Batch Bayesian Optimization of Extended Thompson Sampling for Severely Episode-Limited RL Settings	Nov 30, 2024	Bayesian OptimizationPolicy Gradient Methods	—Unverified
Calibrated Fairness in Bandits	Jul 6, 2017	Decision MakingFairness	—Unverified
Causal Bandits without prior knowledge using separating sets	Sep 16, 2020	Causal DiscoveryDecision Making	—Unverified
Chained Information-Theoretic bounds and Tight Regret Rate for Linear Bandit Problems	Mar 5, 2024	Thompson Sampling	—Unverified
Challenges in Statistical Analysis of Data Collected by a Bandit Algorithm: An Empirical Exploration in Applications to Adaptively Randomized Experiments	Mar 22, 2021	Thompson Sampling	—Unverified
Chimera: A Hybrid Machine Learning Driven Multi-Objective Design Space Exploration Tool for FPGA High-Level Synthesis	Jul 3, 2022	Active LearningDescriptive	—Unverified
Code Repair with LLMs gives an Exploration-Exploitation Tradeoff	May 26, 2024	Code RepairLanguage Modeling	—Unverified
Bayesian Analysis of Combinatorial Gaussian Process Bandits	Dec 20, 2023	Bayesian InferenceInformativeness	—Unverified
Combinatorial Multi-armed Bandits: Arm Selection via Group Testing	Oct 14, 2024	Multi-Armed Banditsparameter estimation	—Unverified
Combinatorial Multi-armed Bandit with Probabilistically Triggered Arms: A Case with Bounded Regret	Jul 24, 2017	Movie RecommendationThompson Sampling	—Unverified

Show:10 25 50

← PrevPage 26 of 27Next →

No leaderboard results yet.