Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 655 papers

Title	Date	Tasks	Status
Sequential Best-Arm Identification with Application to Brain-Computer Interface	May 17, 2023	Brain Computer InterfaceEEG	—Unverified
Thompson Sampling for Parameterized Markov Decision Processes with Uninformative Actions	May 13, 2023	Bayesian InferenceThompson Sampling	—Unverified
Trajectory-oriented optimization of stochastic epidemiological models	May 6, 2023	Thompson Sampling	CodeCode Available
An improved regret analysis for UCB-N and TS-N	May 6, 2023	LEMMAThompson Sampling	—Unverified
Kullback-Leibler Maillard Sampling for Multi-armed Bandits with Bounded Rewards	Apr 28, 2023	Multi-Armed BanditsThompson Sampling	CodeCode Available
Thompson Sampling Regret Bounds for Contextual Bandits with sub-Gaussian rewards	Apr 26, 2023	Multi-Armed BanditsThompson Sampling	—Unverified
Efficiently Tackling Million-Dimensional Multiobjective Problems: A Direction Sampling and Fine-Tuning Approach	Apr 8, 2023	Multiobjective OptimizationRecommendation Systems	—Unverified
Sharp Deviations Bounds for Dirichlet Weighted Sums with Application to analysis of Bayesian algorithms	Apr 6, 2023	Multi-Armed BanditsThompson Sampling	—Unverified
GUTS: Generalized Uncertainty-Aware Thompson Sampling for Multi-Agent Active Search	Apr 4, 2023	AllDisaster Response	—Unverified
Adaptive Experimentation at Scale: A Computational Framework for Flexible Batches	Mar 21, 2023	BenchmarkingThompson Sampling	—Unverified
Only Pay for What Is Uncertain: Variance-Adaptive Thompson Sampling	Mar 16, 2023	Multi-Armed BanditsThompson Sampling	—Unverified
A Unified and Efficient Coordinating Framework for Autonomous DBMS Tuning	Mar 10, 2023	Thompson Sampling	—Unverified
A General Recipe for the Analysis of Randomized Multi-Armed Bandit Algorithms	Mar 10, 2023	Thompson Sampling	—Unverified
Thompson Sampling for Linear Bandit Problems with Normal-Gamma Priors	Mar 6, 2023	Thompson Sampling	—Unverified
The Choice of Noninformative Priors for Thompson Sampling in Multiparameter Bandit Models	Feb 28, 2023	Multi-Armed BanditsThompson Sampling	—Unverified
When Combinatorial Thompson Sampling meets Approximation Regret	Feb 22, 2023	Thompson Sampling	—Unverified
Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits	Feb 18, 2023	Hyperparameter OptimizationMulti-Armed Bandits	—Unverified
A Bandit Approach to Online Pricing for Heterogeneous Edge Resource Allocation	Feb 14, 2023	Edge-computingThompson Sampling	—Unverified
Learning How to Infer Partial MDPs for In-Context Adaptation and Exploration	Feb 8, 2023	Bayesian InferenceThompson Sampling	—Unverified
Leveraging Demonstrations to Improve Online Learning: Quality Matters	Feb 7, 2023	Thompson Sampling	—Unverified
Optimality of Thompson Sampling with Noninformative Priors for Pareto Bandits	Feb 3, 2023	Thompson Sampling	—Unverified
Two-sided Competing Matching Recommendation Markets With Quota and Complementary Preferences Constraints	Jan 24, 2023	Thompson Sampling	CodeCode Available
Differentially Private Online Bayesian Estimation With Adaptive Truncation	Jan 19, 2023	Privacy PreservingSensitivity	CodeCode Available
A Combinatorial Semi-Bandit Approach to Charging Station Selection for Electric Vehicles	Jan 17, 2023	Combinatorial OptimizationThompson Sampling	—Unverified
Thompson Sampling with Diffusion Generative Prior	Jan 12, 2023	Decision MakingDenoising	—Unverified
Reinforcement Learning in Credit Scoring and Underwriting	Dec 15, 2022	Decision MakingEfficient Exploration	—Unverified
Neural Bandits for Data Mining: Searching for Dangerous Polypharmacy	Dec 10, 2022	Thompson Sampling	CodeCode Available
Online Learning-based Waveform Selection for Improved Vehicle Recognition in Automotive Radar	Dec 1, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Monte Carlo Tree Search Algorithms for Risk-Aware and Multi-Objective Reinforcement Learning	Nov 23, 2022	Multi-Objective Reinforcement Learningreinforcement-learning	—Unverified
Thompson Sampling for High-Dimensional Sparse Linear Contextual Bandits	Nov 11, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available
Atlas: Automate Online Service Configuration in Network Slicing	Oct 30, 2022	Bayesian OptimizationSafe Exploration	CodeCode Available
Optimizing Pessimism in Dynamic Treatment Regimes: A Bayesian Learning Approach	Oct 26, 2022	Thompson SamplingVariational Inference	CodeCode Available
Meta Learning of Interface Conditions for Multi-Domain Physics-Informed Neural Networks	Oct 23, 2022	Meta-LearningThompson Sampling	—Unverified
The Typical Behavior of Bandit Algorithms	Oct 11, 2022	Thompson Sampling	—Unverified
Deep Active Ensemble Sampling For Image Classification	Oct 11, 2022	Active LearningClassification	—Unverified
Cost Aware Asynchronous Multi-Agent Active Search	Oct 5, 2022	Decision MakingThompson Sampling	—Unverified
Thompson Sampling with Virtual Helping Agents	Sep 16, 2022	Decision MakingSequential Decision Making	—Unverified
Double Doubly Robust Thompson Sampling for Generalized Linear Contextual Bandits	Sep 15, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
A Nonparametric Contextual Bandit with Arm-level Eligibility Control for Customer Service Routing	Sep 8, 2022	Thompson Sampling	—Unverified
Sample Efficient Learning of Factored Embeddings of Tensor Fields	Sep 1, 2022	Recommendation SystemsThompson Sampling	—Unverified
Causal Bandits for Linear Structural Equation Models	Aug 26, 2022	Thompson Sampling	CodeCode Available
Dynamic collaborative filtering Thompson Sampling for cross-domain advertisements recommendation	Aug 25, 2022	Collaborative FilteringRecommendation Systems	—Unverified
A Provably Efficient Model-Free Posterior Sampling Method for Episodic Reinforcement Learning	Aug 23, 2022	Multi-Armed Banditsreinforcement-learning	—Unverified
Non-Stationary Dynamic Pricing Via Actor-Critic Information-Directed Pricing	Aug 19, 2022	Thompson Sampling	—Unverified
Increasing Students' Engagement to Reminder Emails Through Multi-Armed Bandits	Aug 10, 2022	ManagementMulti-Armed Bandits	—Unverified
Using Adaptive Experiments to Rapidly Help Students	Aug 10, 2022	Thompson Sampling	—Unverified
Bayesian Optimization-Based Beam Alignment for MmWave MIMO Communication Systems	Jul 28, 2022	Bayesian OptimizationThompson Sampling	—Unverified
SPRT-based Efficient Best Arm Identification in Stochastic Bandits	Jul 22, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Chimera: A Hybrid Machine Learning Driven Multi-Objective Design Space Exploration Tool for FPGA High-Level Synthesis	Jul 3, 2022	Active LearningDescriptive	—Unverified
Ranking In Generalized Linear Bandits	Jun 30, 2022	DiversityMulti-Armed Bandits	CodeCode Available

Show:10 25 50

← PrevPage 5 of 14Next →

No leaderboard results yet.