SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 176–200 of 655 papers

Title	Date	Tasks	Status	Hype
Langevin Thompson Sampling with Logarithmic Communication: Bandits and Reinforcement Learning	Jun 15, 2023	Decision MakingMulti-Armed Bandits	—Unverified	0
Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space	Jun 5, 2023	Thompson Sampling	—Unverified	0
Incentivizing Exploration with Linear Contexts and Combinatorial Actions	Jun 3, 2023	Thompson Sampling	—Unverified	0
ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages	Jun 2, 2023	Bayesian Inferencecontinuous-control	CodeCode Available	0
Combinatorial Neural Bandits	May 31, 2023	Thompson Sampling	—Unverified	0
Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo	May 29, 2023	Efficient Explorationreinforcement-learning	CodeCode Available	1
Practical Batch Bayesian Sampling Algorithms for Online Adaptive Traffic Experimentation	May 24, 2023	Thompson Sampling	—Unverified	0
Discounted Thompson Sampling for Non-Stationary Bandit Problems	May 18, 2023	Thompson Sampling	—Unverified	0
Sequential Best-Arm Identification with Application to Brain-Computer Interface	May 17, 2023	Brain Computer InterfaceEEG	—Unverified	0
Thompson Sampling for Parameterized Markov Decision Processes with Uninformative Actions	May 13, 2023	Bayesian InferenceThompson Sampling	—Unverified	0
An improved regret analysis for UCB-N and TS-N	May 6, 2023	LEMMAThompson Sampling	—Unverified	0
Trajectory-oriented optimization of stochastic epidemiological models	May 6, 2023	Thompson Sampling	CodeCode Available	0
Neural Exploitation and Exploration of Contextual Bandits	May 5, 2023	Multi-Armed BanditsThompson Sampling	CodeCode Available	1
Kullback-Leibler Maillard Sampling for Multi-armed Bandits with Bounded Rewards	Apr 28, 2023	Multi-Armed BanditsThompson Sampling	CodeCode Available	0
Thompson Sampling Regret Bounds for Contextual Bandits with sub-Gaussian rewards	Apr 26, 2023	Multi-Armed BanditsThompson Sampling	—Unverified	0
Efficiently Tackling Million-Dimensional Multiobjective Problems: A Direction Sampling and Fine-Tuning Approach	Apr 8, 2023	Multiobjective OptimizationRecommendation Systems	—Unverified	0
Sharp Deviations Bounds for Dirichlet Weighted Sums with Application to analysis of Bayesian algorithms	Apr 6, 2023	Multi-Armed BanditsThompson Sampling	—Unverified	0
GUTS: Generalized Uncertainty-Aware Thompson Sampling for Multi-Agent Active Search	Apr 4, 2023	AllDisaster Response	—Unverified	0
Adaptive Experimentation at Scale: A Computational Framework for Flexible Batches	Mar 21, 2023	BenchmarkingThompson Sampling	—Unverified	0
Only Pay for What Is Uncertain: Variance-Adaptive Thompson Sampling	Mar 16, 2023	Multi-Armed BanditsThompson Sampling	—Unverified	0
A Unified and Efficient Coordinating Framework for Autonomous DBMS Tuning	Mar 10, 2023	Thompson Sampling	—Unverified	0
A General Recipe for the Analysis of Randomized Multi-Armed Bandit Algorithms	Mar 10, 2023	Thompson Sampling	—Unverified	0
Thompson Sampling for Linear Bandit Problems with Normal-Gamma Priors	Mar 6, 2023	Thompson Sampling	—Unverified	0
The Choice of Noninformative Priors for Thompson Sampling in Multiparameter Bandit Models	Feb 28, 2023	Multi-Armed BanditsThompson Sampling	—Unverified	0
When Combinatorial Thompson Sampling meets Approximation Regret	Feb 22, 2023	Thompson Sampling	—Unverified	0

Show:10 25 50

← PrevPage 8 of 27Next →

No leaderboard results yet.