Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 655 papers

Title	Date	Tasks	Status	Hype
Mixed-Effect Thompson Sampling	May 30, 2022	Thompson Sampling	CodeCode Available	0
Surrogate modeling for Bayesian optimization beyond a single Gaussian process	May 27, 2022	Bayesian OptimizationDrug Discovery	—Unverified	0
Lifting the Information Ratio: An Information-Theoretic Analysis of Thompson Sampling for Contextual Bandits	May 27, 2022	Multi-Armed BanditsThompson Sampling	—Unverified	0
Information-Directed Selection for Top-Two Algorithms	May 24, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available	0
Fast Change Identification in Multi-Play Bandits and its Applications in Wireless Networks	May 20, 2022	Change DetectionEdge-computing	—Unverified	0
Semi-Parametric Contextual Bandits with Graph-Laplacian Regularization	May 17, 2022	Multi-Armed BanditsThompson Sampling	—Unverified	0
Adjusted Expected Improvement for Cumulative Regret Minimization in Noisy Bayesian Optimization	May 10, 2022	Bayesian OptimizationThompson Sampling	—Unverified	0
Non-Stationary Bandit Learning via Predictive Sampling	May 4, 2022	AttributeThompson Sampling	—Unverified	0
Evolutionary Multi-Armed Bandits with Genetic Thompson Sampling	Apr 26, 2022	Decision MakingEvolutionary Algorithms	CodeCode Available	0
Thompson Sampling for Bandit Learning in Matching Markets	Apr 26, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available	0
On Kernelized Multi-Armed Bandits with Constraints	Mar 29, 2022	Multi-Armed BanditsThompson Sampling	—Unverified	0
Multi-armed bandits for resource efficient, online optimization of language model pre-training: the use case of dynamic masking	Mar 24, 2022	Bayesian OptimizationDecision Making	CodeCode Available	0
Thompson Sampling on Asymmetric α-Stable Bandits	Mar 19, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified	0
Regenerative Particle Thompson Sampling	Mar 15, 2022	Thompson Sampling	—Unverified	0
Multi-Agent Active Search using Detection and Location Uncertainty	Mar 9, 2022	Decision MakingDisaster Response	—Unverified	0
Partial Likelihood Thompson Sampling	Mar 2, 2022	Thompson Sampling	—Unverified	0
An Analysis of Ensemble Sampling	Mar 2, 2022	Thompson Sampling	—Unverified	0
Scalable Bayesian Optimization Using Vecchia Approximations of Gaussian Processes	Mar 2, 2022	Bayesian OptimizationGaussian Processes	CodeCode Available	0
Towards Scalable and Robust Structured Bandits: A Meta-Learning Framework	Feb 26, 2022	Meta-LearningThompson Sampling	—Unverified	0
Thompson Sampling with Unrestricted Delays	Feb 24, 2022	Thompson Sampling	—Unverified	0
Double Thompson Sampling in Finite stochastic Games	Feb 21, 2022	Thompson Sampling	—Unverified	0
Adaptive Experimentation in the Presence of Exogenous Nonstationary Variation	Feb 18, 2022	Thompson Sampling	—Unverified	0
Fast online inference for nonlinear contextual bandit based on Generative Adversarial Network	Feb 17, 2022	Bayesian InferenceGenerative Adversarial Network	—Unverified	0
Synthetically Controlled Bandits	Feb 14, 2022	Thompson Sampling	—Unverified	0
Remote Contextual Bandits	Feb 10, 2022	MarketingMulti-Armed Bandits	—Unverified	0
Fourier Representations for Black-Box Optimization over Categorical Variables	Feb 8, 2022	regressionThompson Sampling	—Unverified	0
On learning Whittle index policy for restless bandits with scalable regret	Feb 7, 2022	SchedulingThompson Sampling	—Unverified	0
Bayesian Non-stationary Linear Bandits for Large-Scale Recommender Systems	Feb 7, 2022	Decision MakingDimensionality Reduction	CodeCode Available	0
Tsetlin Machine for Solving Contextual Bandit Problems	Feb 4, 2022	Thompson Sampling	CodeCode Available	0
Deep Hierarchy in Bandits	Feb 3, 2022	Thompson Sampling	—Unverified	0
Optimal Regret Is Achievable with Bounded Approximate Inference Error: An Enhanced Bayesian Upper Confidence Bound Framework	Jan 31, 2022	Bayesian InferenceMulti-Armed Bandits	CodeCode Available	0
Evaluating Deep Vs. Wide & Deep Learners As Contextual Bandits For Personalized Email Promo Recommendations	Jan 31, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available	0
Modeling Human Exploration Through Resource-Rational Reinforcement Learning	Jan 27, 2022	Meta-Learningreinforcement-learning	CodeCode Available	0
Augmented RBMLE-UCB Approach for Adaptive Control of Linear Quadratic Systems	Jan 25, 2022	parameter estimationThompson Sampling	—Unverified	0
IBAC: An Intelligent Dynamic Bandwidth Channel Access Avoiding Outside Warning Range Problem	Jan 15, 2022	Thompson Sampling	—Unverified	0
On Dynamic Pricing with Covariates	Dec 25, 2021	Thompson Sampling	—Unverified	0
Algorithms for Adaptive Experiments that Trade-off Statistical Analysis with Reward: Combining Uniform Random Assignment and Reward Maximization	Dec 15, 2021	Thompson Sampling	—Unverified	0
Safe Linear Leveling Bandits	Dec 13, 2021	Multi-Armed BanditsThompson Sampling	—Unverified	0
Risk and optimal policies in bandit experiments	Dec 13, 2021	Dimensionality ReductionThompson Sampling	—Unverified	0
Bayesian Optimization over Permutation Spaces	Dec 2, 2021	Bayesian OptimizationHeuristic Search	CodeCode Available	1
Observation-Free Attacks on Stochastic Bandits	Dec 1, 2021	Thompson Sampling	—Unverified	0
Doubly Robust Thompson Sampling with Linear Payoffs	Dec 1, 2021	Thompson Sampling	—Unverified	0
Optimizing Conditional Value-At-Risk of Black-Box Functions	Dec 1, 2021	Bayesian OptimizationThompson Sampling	CodeCode Available	0
Adaptive Gating for Single-Photon 3D Imaging	Nov 30, 2021	PositionThompson Sampling	—Unverified	0
ESCADA: Efficient Safety and Context Aware Dose Allocation for Precision Medicine	Nov 26, 2021	Thompson Sampling	CodeCode Available	0
Hierarchical Bayesian Bandits	Nov 12, 2021	Federated LearningThompson Sampling	—Unverified	0
The Hardness Analysis of Thompson Sampling for Combinatorial Semi-bandits with Greedy Oracle	Nov 8, 2021	Combinatorial OptimizationOpen-Ended Question Answering	—Unverified	0
Maillard Sampling: Boltzmann Exploration Done Optimally	Nov 5, 2021	counterfactualThompson Sampling	—Unverified	0
Online Learning of Energy Consumption for Navigation of Electric Vehicles	Nov 3, 2021	NavigateThompson Sampling	—Unverified	0
Efficient Inference Without Trading-off Regret in Bandits: An Allocation Probability Test for Thompson Sampling	Oct 30, 2021	Thompson Sampling	—Unverified	0

Show:10 25 50

← PrevPage 6 of 14Next →

No leaderboard results yet.