Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 226–250 of 655 papers

Title	Date	Tasks	Status
Reinforcement Learning in Credit Scoring and Underwriting	Dec 15, 2022	Decision MakingEfficient Exploration	—Unverified
Neural Bandits for Data Mining: Searching for Dangerous Polypharmacy	Dec 10, 2022	Thompson Sampling	CodeCode Available
Online Learning-based Waveform Selection for Improved Vehicle Recognition in Automotive Radar	Dec 1, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Monte Carlo Tree Search Algorithms for Risk-Aware and Multi-Objective Reinforcement Learning	Nov 23, 2022	Multi-Objective Reinforcement Learningreinforcement-learning	—Unverified
Thompson Sampling for High-Dimensional Sparse Linear Contextual Bandits	Nov 11, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available
Atlas: Automate Online Service Configuration in Network Slicing	Oct 30, 2022	Bayesian OptimizationSafe Exploration	CodeCode Available
Optimizing Pessimism in Dynamic Treatment Regimes: A Bayesian Learning Approach	Oct 26, 2022	Thompson SamplingVariational Inference	CodeCode Available
Meta Learning of Interface Conditions for Multi-Domain Physics-Informed Neural Networks	Oct 23, 2022	Meta-LearningThompson Sampling	—Unverified
The Typical Behavior of Bandit Algorithms	Oct 11, 2022	Thompson Sampling	—Unverified
Deep Active Ensemble Sampling For Image Classification	Oct 11, 2022	Active LearningClassification	—Unverified
Cost Aware Asynchronous Multi-Agent Active Search	Oct 5, 2022	Decision MakingThompson Sampling	—Unverified
Thompson Sampling with Virtual Helping Agents	Sep 16, 2022	Decision MakingSequential Decision Making	—Unverified
Double Doubly Robust Thompson Sampling for Generalized Linear Contextual Bandits	Sep 15, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
A Nonparametric Contextual Bandit with Arm-level Eligibility Control for Customer Service Routing	Sep 8, 2022	Thompson Sampling	—Unverified
Sample Efficient Learning of Factored Embeddings of Tensor Fields	Sep 1, 2022	Recommendation SystemsThompson Sampling	—Unverified
Causal Bandits for Linear Structural Equation Models	Aug 26, 2022	Thompson Sampling	CodeCode Available
Dynamic collaborative filtering Thompson Sampling for cross-domain advertisements recommendation	Aug 25, 2022	Collaborative FilteringRecommendation Systems	—Unverified
A Provably Efficient Model-Free Posterior Sampling Method for Episodic Reinforcement Learning	Aug 23, 2022	Multi-Armed Banditsreinforcement-learning	—Unverified
Non-Stationary Dynamic Pricing Via Actor-Critic Information-Directed Pricing	Aug 19, 2022	Thompson Sampling	—Unverified
Increasing Students' Engagement to Reminder Emails Through Multi-Armed Bandits	Aug 10, 2022	ManagementMulti-Armed Bandits	—Unverified
Using Adaptive Experiments to Rapidly Help Students	Aug 10, 2022	Thompson Sampling	—Unverified
Bayesian Optimization-Based Beam Alignment for MmWave MIMO Communication Systems	Jul 28, 2022	Bayesian OptimizationThompson Sampling	—Unverified
SPRT-based Efficient Best Arm Identification in Stochastic Bandits	Jul 22, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Chimera: A Hybrid Machine Learning Driven Multi-Objective Design Space Exploration Tool for FPGA High-Level Synthesis	Jul 3, 2022	Active LearningDescriptive	—Unverified
Ranking In Generalized Linear Bandits	Jun 30, 2022	DiversityMulti-Armed Bandits	CodeCode Available

Show:10 25 50

← PrevPage 10 of 27Next →

No leaderboard results yet.