Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 655 papers

Title	Date	Tasks	Status
Chimera: A Hybrid Machine Learning Driven Multi-Objective Design Space Exploration Tool for FPGA High-Level Synthesis	Jul 3, 2022	Active LearningDescriptive	—Unverified
Code Repair with LLMs gives an Exploration-Exploitation Tradeoff	May 26, 2024	Code RepairLanguage Modeling	—Unverified
Bayesian Analysis of Combinatorial Gaussian Process Bandits	Dec 20, 2023	Bayesian InferenceInformativeness	—Unverified
Combinatorial Multi-armed Bandits: Arm Selection via Group Testing	Oct 14, 2024	Multi-Armed Banditsparameter estimation	—Unverified
BBQ-Networks: Efficient Exploration in Deep Reinforcement Learning for Task-Oriented Dialogue Systems	Nov 15, 2017	Deep Reinforcement LearningEfficient Exploration	—Unverified
Combinatorial Neural Bandits	May 31, 2023	Thompson Sampling	—Unverified
Combining Bayesian Optimization and Lipschitz Optimization	Oct 10, 2018	Bayesian Optimizationglobal-optimization	—Unverified
Concurrent Decentralized Channel Allocation and Access Point Selection using Multi-Armed Bandits in multi BSS WLANs	Jun 5, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Connecting Thompson Sampling and UCB: Towards More Efficient Trade-offs Between Privacy and Regret	May 5, 2025	Thompson Sampling	—Unverified
Connections Between Mirror Descent, Thompson Sampling and the Information Ratio	May 28, 2019	Thompson Sampling	—Unverified
Constrained Contextual Bandit Learning for Adaptive Radar Waveform Selection	Mar 9, 2021	Thompson Sampling	—Unverified
Constrained Thompson Sampling for Real-Time Electricity Pricing with Grid Reliability Constraints	Jun 17, 2020	Thompson Sampling	—Unverified
Constrained Thompson Sampling for Wireless Link Optimization	Feb 28, 2019	Thompson Sampling	—Unverified
A Reinforcement Learning based Reset Policy for CDCL SAT Solvers	Apr 4, 2024	reinforcement-learningReinforcement Learning	—Unverified
A relaxed technical assumption for posterior sampling-based reinforcement learning for control of unknown linear systems	Aug 19, 2021	Thompson Sampling	—Unverified
Context Attentive Bandits: Contextual Bandit with Restricted Context	May 10, 2017	Recommendation SystemsThompson Sampling	—Unverified
Context Attribution with Multi-Armed Bandit Optimization	Jun 24, 2025	Thompson Sampling	—Unverified
Adaptive Portfolio by Solving Multi-armed Bandit via Thompson Sampling	Nov 13, 2019	Decision MakingManagement	—Unverified
Contextual Bandits for Advertising Budget Allocation	Aug 22, 2020	MarketingMulti-Armed Bandits	—Unverified
Contextual Bandits with Non-Stationary Correlated Rewards for User Association in MmWave Vehicular Networks	Oct 8, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Contextual Bandit with Herding Effects: Algorithms and Recommendation Applications	Aug 26, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Contextual Multi-armed Bandit Algorithm for Semiparametric Reward Model	Jan 31, 2019	Recommendation SystemsThompson Sampling	—Unverified
Contextual Multi-Armed Bandits for Causal Marketing	Oct 2, 2018	Causal Inferencecounterfactual	—Unverified
Contextual Thompson Sampling via Generation of Missing Data	Feb 10, 2025	Decision MakingFairness	—Unverified
Convergence Rates of Posterior Distributions in Markov Decision Process	Jul 22, 2019	Thompson Sampling	—Unverified
Convolutional Monte Carlo Rollouts in Go	Dec 10, 2015	GPUThompson Sampling	—Unverified
Cost Aware Asynchronous Multi-Agent Active Search	Oct 5, 2022	Decision MakingThompson Sampling	—Unverified
Cost-efficient Knowledge-based Question Answering with Large Language Models	May 27, 2024	Knowledge GraphsModel Selection	—Unverified
Asymptotically Optimal Bandits under Weighted Information	May 28, 2021	Thompson Sampling	—Unverified
Counterfactual Data-Fusion for Online Reinforcement Learners	Aug 1, 2017	counterfactualDecision Making	—Unverified
Counterfactual Inference under Thompson Sampling	Apr 3, 2025	Causal Inferencecounterfactual	—Unverified
Towards Efficient and Optimal Covariance-Adaptive Algorithms for Combinatorial Semi-Bandits	Feb 23, 2024	Thompson Sampling	—Unverified
Cover Tree Bayesian Reinforcement Learning	May 8, 2013	reinforcement-learningReinforcement Learning	—Unverified
Customized Nonlinear Bandits for Online Response Selection in Neural Conversation Models	Nov 22, 2017	Multi-Armed BanditsResponse Generation	—Unverified
Asymptotic Convergence of Thompson Sampling	Nov 8, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Debiasing Samples from Online Learning Using Bootstrap	Jul 31, 2021	Off-policy evaluationThompson Sampling	—Unverified
Decentralized Multi-Agent Active Search and Tracking when Targets Outnumber Agents	Jan 6, 2024	Decision MakingThompson Sampling	—Unverified
Deciding What to Learn: A Rate-Distortion Approach	Jan 15, 2021	Decision MakingSequential Decision Making	—Unverified
Deconfounded Warm-Start Thompson Sampling with Applications to Precision Medicine	May 22, 2025	Thompson Sampling	—Unverified
Deep Active Ensemble Sampling For Image Classification	Oct 11, 2022	Active LearningClassification	—Unverified
Bayesian Quantile and Expectile Optimisation	Jan 12, 2020	Bayesian OptimisationGaussian Processes	—Unverified
An Information-Theoretic Analysis of Thompson Sampling for Logistic Bandits	Dec 3, 2024	Thompson Sampling	—Unverified
Deep Contextual Multi-armed Bandits	Jul 25, 2018	MarketingMulti-Armed Bandits	—Unverified
Deep Exploration for Recommendation Systems	Sep 26, 2021	Recommendation SystemsThompson Sampling	—Unverified
Deep Hierarchy in Bandits	Feb 3, 2022	Thompson Sampling	—Unverified
Delay-Adaptive Learning in Generalized Linear Contextual Bandits	Mar 11, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Adaptively Optimize Content Recommendation Using Multi Armed Bandit Algorithms in E-commerce	Jul 30, 2021	Thompson Sampling	—Unverified
Differentially Private Federated Bayesian Optimization with Distributed Exploration	Oct 27, 2021	Bayesian OptimizationFederated Learning	—Unverified
Diffusion Approximations for Thompson Sampling	May 19, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
A Copula approach for hyperparameter transfer learning	Sep 25, 2019	Bayesian OptimizationThompson Sampling	—Unverified

Show:10 25 50

← PrevPage 4 of 14Next →

No leaderboard results yet.