Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 655 papers

Title	Date	Tasks	Status	Hype
Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits	Feb 18, 2023	Hyperparameter OptimizationMulti-Armed Bandits	—Unverified	0
Approximate Thompson Sampling via Epistemic Neural Networks	Feb 18, 2023	Thompson Sampling	CodeCode Available	1
A Bandit Approach to Online Pricing for Heterogeneous Edge Resource Allocation	Feb 14, 2023	Edge-computingThompson Sampling	—Unverified	0
Learning How to Infer Partial MDPs for In-Context Adaptation and Exploration	Feb 8, 2023	Bayesian InferenceThompson Sampling	—Unverified	0
Leveraging Demonstrations to Improve Online Learning: Quality Matters	Feb 7, 2023	Thompson Sampling	—Unverified	0
Optimality of Thompson Sampling with Noninformative Priors for Pareto Bandits	Feb 3, 2023	Thompson Sampling	—Unverified	0
Two-sided Competing Matching Recommendation Markets With Quota and Complementary Preferences Constraints	Jan 24, 2023	Thompson Sampling	CodeCode Available	0
Differentially Private Online Bayesian Estimation With Adaptive Truncation	Jan 19, 2023	Privacy PreservingSensitivity	CodeCode Available	0
A Combinatorial Semi-Bandit Approach to Charging Station Selection for Electric Vehicles	Jan 17, 2023	Combinatorial OptimizationThompson Sampling	—Unverified	0
Thompson Sampling with Diffusion Generative Prior	Jan 12, 2023	Decision MakingDenoising	—Unverified	0
Reinforcement Learning in Credit Scoring and Underwriting	Dec 15, 2022	Decision MakingEfficient Exploration	—Unverified	0
Neural Bandits for Data Mining: Searching for Dangerous Polypharmacy	Dec 10, 2022	Thompson Sampling	CodeCode Available	0
Online Learning-based Waveform Selection for Improved Vehicle Recognition in Automotive Radar	Dec 1, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified	0
Monte Carlo Tree Search Algorithms for Risk-Aware and Multi-Objective Reinforcement Learning	Nov 23, 2022	Multi-Objective Reinforcement Learningreinforcement-learning	—Unverified	0
Thompson Sampling for High-Dimensional Sparse Linear Contextual Bandits	Nov 11, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available	0
Atlas: Automate Online Service Configuration in Network Slicing	Oct 30, 2022	Bayesian OptimizationSafe Exploration	CodeCode Available	0
Optimizing Pessimism in Dynamic Treatment Regimes: A Bayesian Learning Approach	Oct 26, 2022	Thompson SamplingVariational Inference	CodeCode Available	0
Meta Learning of Interface Conditions for Multi-Domain Physics-Informed Neural Networks	Oct 23, 2022	Meta-LearningThompson Sampling	—Unverified	0
Sample-Then-Optimize Batch Neural Thompson Sampling	Oct 13, 2022	AutoMLBayesian Optimization	CodeCode Available	1
Deep Active Ensemble Sampling For Image Classification	Oct 11, 2022	Active LearningClassification	—Unverified	0
The Typical Behavior of Bandit Algorithms	Oct 11, 2022	Thompson Sampling	—Unverified	0
Cost Aware Asynchronous Multi-Agent Active Search	Oct 5, 2022	Decision MakingThompson Sampling	—Unverified	0
Thompson Sampling with Virtual Helping Agents	Sep 16, 2022	Decision MakingSequential Decision Making	—Unverified	0
Double Doubly Robust Thompson Sampling for Generalized Linear Contextual Bandits	Sep 15, 2022	Multi-Armed BanditsThompson Sampling	—Unverified	0
A Nonparametric Contextual Bandit with Arm-level Eligibility Control for Customer Service Routing	Sep 8, 2022	Thompson Sampling	—Unverified	0
Sample Efficient Learning of Factored Embeddings of Tensor Fields	Sep 1, 2022	Recommendation SystemsThompson Sampling	—Unverified	0
Causal Bandits for Linear Structural Equation Models	Aug 26, 2022	Thompson Sampling	CodeCode Available	0
Dynamic collaborative filtering Thompson Sampling for cross-domain advertisements recommendation	Aug 25, 2022	Collaborative FilteringRecommendation Systems	—Unverified	0
A Provably Efficient Model-Free Posterior Sampling Method for Episodic Reinforcement Learning	Aug 23, 2022	Multi-Armed Banditsreinforcement-learning	—Unverified	0
Non-Stationary Dynamic Pricing Via Actor-Critic Information-Directed Pricing	Aug 19, 2022	Thompson Sampling	—Unverified	0
Increasing Students' Engagement to Reminder Emails Through Multi-Armed Bandits	Aug 10, 2022	ManagementMulti-Armed Bandits	—Unverified	0
Using Adaptive Experiments to Rapidly Help Students	Aug 10, 2022	Thompson Sampling	—Unverified	0
Bayesian Optimization-Based Beam Alignment for MmWave MIMO Communication Systems	Jul 28, 2022	Bayesian OptimizationThompson Sampling	—Unverified	0
SPRT-based Efficient Best Arm Identification in Stochastic Bandits	Jul 22, 2022	Multi-Armed BanditsThompson Sampling	—Unverified	0
Chimera: A Hybrid Machine Learning Driven Multi-Objective Design Space Exploration Tool for FPGA High-Level Synthesis	Jul 3, 2022	Active LearningDescriptive	—Unverified	0
Ranking In Generalized Linear Bandits	Jun 30, 2022	DiversityMulti-Armed Bandits	CodeCode Available	0
Risk-averse Contextual Multi-armed Bandit Problem with Linear Payoffs	Jun 24, 2022	Thompson Sampling	—Unverified	0
Langevin Monte Carlo for Contextual Bandits	Jun 22, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available	1
Analysis of Thompson Sampling for Controlling Unknown Linear Diffusion Processes	Jun 20, 2022	Decision MakingDecision Making Under Uncertainty	—Unverified	0
Thompson Sampling for (Combinatorial) Pure Exploration	Jun 18, 2022	Thompson Sampling	—Unverified	0
Thompson Sampling for Robust Transfer in Multi-Task Bandits	Jun 17, 2022	Multi-Task LearningThompson Sampling	CodeCode Available	0
Thompson Sampling Achieves O(T) Regret in Linear Quadratic Control	Jun 17, 2022	Decision MakingDecision Making Under Uncertainty	—Unverified	0
A Contextual Combinatorial Semi-Bandit Approach to Network Bottleneck Identification	Jun 16, 2022	Multi-Armed BanditsThompson Sampling	—Unverified	0
On Provably Robust Meta-Bayesian Optimization	Jun 14, 2022	Bayesian OptimizationMeta-Learning	CodeCode Available	0
Top Two Algorithms Revisited	Jun 13, 2022	Thompson SamplingVocal Bursts Valence Prediction	—Unverified	0
Regret Bounds for Information-Directed Reinforcement Learning	Jun 9, 2022	reinforcement-learningReinforcement Learning	—Unverified	0
A Simple and Optimal Policy Design with Safety against Heavy-Tailed Risk for Stochastic Bandits	Jun 7, 2022	Multi-Armed BanditsThompson Sampling	—Unverified	0
Finite-Time Regret of Thompson Sampling Algorithms for Exponential Family Multi-Armed Bandits	Jun 7, 2022	Multi-Armed BanditsThompson Sampling	—Unverified	0
Bandit Theory and Thompson Sampling-Guided Directed Evolution for Sequence Optimization	Jun 5, 2022	BIG-bench Machine LearningEvolutionary Algorithms	—Unverified	0
Incentivizing Combinatorial Bandit Exploration	Jun 1, 2022	Thompson Sampling	—Unverified	0

Show:10 25 50

← PrevPage 5 of 14Next →

No leaderboard results yet.