Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 655 papers

Title	Date	Tasks	Status
Optimality of Thompson Sampling with Noninformative Priors for Pareto Bandits	Feb 3, 2023	Thompson Sampling	—Unverified
Optimal Learning for Dynamic Coding in Deadline-Constrained Multi-Channel Networks	Nov 27, 2018	Thompson Sampling	—Unverified
Optimal No-regret Learning in Repeated First-price Auctions	Mar 22, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Optimal Recommendation to Users that React: Online Learning for a Class of POMDPs	Mar 30, 2016	Recommendation SystemsReinforcement Learning	—Unverified
Optimistic posterior sampling for reinforcement learning: worst-case regret bounds	Dec 1, 2017	reinforcement-learningReinforcement Learning	—Unverified
Optimistic Thompson Sampling for No-Regret Learning in Unknown Games	Feb 7, 2024	Decision MakingThompson Sampling	—Unverified
Optimization of a SSP's Header Bidding Strategy using Thompson Sampling	Jul 9, 2018	Thompson Sampling	—Unverified
Optimizing Adaptive Experiments: A Unified Approach to Regret Minimization and Best-Arm Identification	Feb 16, 2024	Thompson Sampling	—Unverified
Ordinal Bayesian Optimisation	Dec 5, 2019	Bayesian OptimisationThompson Sampling	—Unverified
Parallel and Distributed Thompson Sampling for Large-scale Accelerated Exploration of Chemical Space	Jun 6, 2017	Bayesian OptimizationThompson Sampling	—Unverified
Parallel Bayesian Optimization Using Satisficing Thompson Sampling for Time-Sensitive Black-Box Optimization	Oct 19, 2023	Bayesian OptimizationSTS	—Unverified
Parallel Contextual Bandits in Wireless Handover Optimization	Jan 21, 2019	Multi-Armed BanditsThompson Sampling	—Unverified
Parallelizing Thompson Sampling	Jun 2, 2021	Decision MakingThompson Sampling	—Unverified
Partial Likelihood Thompson Sampling	Mar 2, 2022	Thompson Sampling	—Unverified
Partially Observable Contextual Bandits with Linear Payoffs	Sep 17, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Partially Observable Online Change Detection via Smooth-Sparse Decomposition	Sep 22, 2020	Bayesian InferenceChange Detection	—Unverified
PG-TS: Improved Thompson Sampling for Logistic Contextual Bandits	May 18, 2018	Multi-Armed BanditsThompson Sampling	—Unverified
Planning and Learning in Risk-Aware Restless Multi-Arm Bandit Problem	Oct 30, 2024	SchedulingThompson Sampling	—Unverified
Policy Gradient Optimization of Thompson Sampling Policies	Jun 30, 2020	Policy Gradient MethodsThompson Sampling	—Unverified
Position-Based Multiple-Play Bandits with Thompson Sampling	Sep 28, 2020	PositionRecommendation Systems	—Unverified
Posterior Sampling-Based Bayesian Optimization with Tighter Bayesian Regret Bounds	Nov 7, 2023	Bayesian OptimizationThompson Sampling	—Unverified
Posterior sampling for reinforcement learning: worst-case regret bounds	May 19, 2017	reinforcement-learningReinforcement Learning	—Unverified
Posterior Sampling via Autoregressive Generation	May 29, 2024	ArticlesDecision Making	—Unverified
Practical Adversarial Attacks on Stochastic Bandits via Fake Data Injection	May 28, 2025	Thompson Sampling	—Unverified
Preferential Multi-Objective Bayesian Optimization	Jun 20, 2024	Autonomous DrivingBayesian Optimization	—Unverified
Prior-free and prior-dependent regret bounds for Thompson Sampling	Apr 21, 2013	Thompson Sampling	—Unverified
Probabilistic Inference in Reinforcement Learning Done Right	Nov 22, 2023	reinforcement-learningReinforcement Learning	—Unverified
Profitable Bandits	May 8, 2018	ManagementThompson Sampling	—Unverified
QoS-Aware Multi-Armed Bandits	Feb 28, 2017	Decision MakingMulti-Armed Bandits	—Unverified
Racing Thompson: an Efficient Algorithm for Thompson Sampling with Non-conjugate Priors	Aug 16, 2017	Thompson Sampling	—Unverified
Random Effect Bandits	Jun 23, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
Random Hypervolume Scalarizations for Provable Multi-Objective Black Box Optimization	Jun 8, 2020	Bayesian OptimizationThompson Sampling	—Unverified
Randomised Bayesian Least-Squares Policy Iteration	Apr 6, 2019	Thompson Sampling	—Unverified
Randomized Exploration in Cooperative Multi-Agent Reinforcement Learning	Apr 16, 2024	Federated LearningMulti-agent Reinforcement Learning	—Unverified
Regenerative Particle Thompson Sampling	Mar 15, 2022	Thompson Sampling	—Unverified
Regret Analysis of Bandit Problems with Causal Background Knowledge	Oct 11, 2019	Thompson Sampling	—Unverified
Regret Analysis of the Finite-Horizon Gittins Index Strategy for Multi-Armed Bandits	Nov 18, 2015	Multi-Armed BanditsThompson Sampling	—Unverified
Regret Bounds for Information-Directed Reinforcement Learning	Jun 9, 2022	reinforcement-learningReinforcement Learning	—Unverified
Regularized-OFU: an efficient algorithm for general contextual bandit with optimization oracles	Sep 29, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
Reinforcement Learning for Efficient and Tuning-Free Link Adaptation	Oct 16, 2020	reinforcement-learningReinforcement Learning	—Unverified
Reinforcement learning techniques for Outer Loop Link Adaptation in 4G/5G systems	Aug 3, 2017	Multi-Armed Banditsreinforcement-learning	—Unverified
Reinforcement Learning with Subspaces using Free Energy Paradigm	Dec 13, 2020	reinforcement-learningReinforcement Learning	—Unverified
Reinforcement Learning with Trajectory Feedback	Aug 13, 2020	reinforcement-learningReinforcement Learning	—Unverified
Remote Contextual Bandits	Feb 10, 2022	MarketingMulti-Armed Bandits	—Unverified
Residual Bootstrap Exploration for Bandit Algorithms	Feb 19, 2020	Computational EfficiencyMulti-Armed Bandits	—Unverified
Revised Progressive-Hedging-Algorithm Based Two-layer Solution Scheme for Bayesian Reinforcement Learning	Jun 21, 2019	Reinforcement LearningReinforcement Learning (RL)	—Unverified
Reward Biased Maximum Likelihood Estimation for Reinforcement Learning	Nov 16, 2020	Multi-Armed Banditsreinforcement-learning	—Unverified
Risk and optimal policies in bandit experiments	Dec 13, 2021	Dimensionality ReductionThompson Sampling	—Unverified
Risk-averse Contextual Multi-armed Bandit Problem with Linear Payoffs	Jun 24, 2022	Thompson Sampling	—Unverified
Risk-Constrained Thompson Sampling for CVaR Bandits	Nov 16, 2020	Decision MakingThompson Sampling	—Unverified

Show:10 25 50

← PrevPage 8 of 14Next →

No leaderboard results yet.