Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 276–300 of 655 papers

Title	Date	Tasks	Status	Hype
Fourier Representations for Black-Box Optimization over Categorical Variables	Feb 8, 2022	regressionThompson Sampling	—Unverified	0
On learning Whittle index policy for restless bandits with scalable regret	Feb 7, 2022	SchedulingThompson Sampling	—Unverified	0
Bayesian Non-stationary Linear Bandits for Large-Scale Recommender Systems	Feb 7, 2022	Decision MakingDimensionality Reduction	CodeCode Available	0
Tsetlin Machine for Solving Contextual Bandit Problems	Feb 4, 2022	Thompson Sampling	CodeCode Available	0
Deep Hierarchy in Bandits	Feb 3, 2022	Thompson Sampling	—Unverified	0
Optimal Regret Is Achievable with Bounded Approximate Inference Error: An Enhanced Bayesian Upper Confidence Bound Framework	Jan 31, 2022	Bayesian InferenceMulti-Armed Bandits	CodeCode Available	0
Evaluating Deep Vs. Wide & Deep Learners As Contextual Bandits For Personalized Email Promo Recommendations	Jan 31, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available	0
Modeling Human Exploration Through Resource-Rational Reinforcement Learning	Jan 27, 2022	Meta-Learningreinforcement-learning	CodeCode Available	0
Augmented RBMLE-UCB Approach for Adaptive Control of Linear Quadratic Systems	Jan 25, 2022	parameter estimationThompson Sampling	—Unverified	0
IBAC: An Intelligent Dynamic Bandwidth Channel Access Avoiding Outside Warning Range Problem	Jan 15, 2022	Thompson Sampling	—Unverified	0
On Dynamic Pricing with Covariates	Dec 25, 2021	Thompson Sampling	—Unverified	0
Algorithms for Adaptive Experiments that Trade-off Statistical Analysis with Reward: Combining Uniform Random Assignment and Reward Maximization	Dec 15, 2021	Thompson Sampling	—Unverified	0
Safe Linear Leveling Bandits	Dec 13, 2021	Multi-Armed BanditsThompson Sampling	—Unverified	0
Risk and optimal policies in bandit experiments	Dec 13, 2021	Dimensionality ReductionThompson Sampling	—Unverified	0
Bayesian Optimization over Permutation Spaces	Dec 2, 2021	Bayesian OptimizationHeuristic Search	CodeCode Available	1
Observation-Free Attacks on Stochastic Bandits	Dec 1, 2021	Thompson Sampling	—Unverified	0
Doubly Robust Thompson Sampling with Linear Payoffs	Dec 1, 2021	Thompson Sampling	—Unverified	0
Optimizing Conditional Value-At-Risk of Black-Box Functions	Dec 1, 2021	Bayesian OptimizationThompson Sampling	CodeCode Available	0
Adaptive Gating for Single-Photon 3D Imaging	Nov 30, 2021	PositionThompson Sampling	—Unverified	0
ESCADA: Efficient Safety and Context Aware Dose Allocation for Precision Medicine	Nov 26, 2021	Thompson Sampling	CodeCode Available	0
Hierarchical Bayesian Bandits	Nov 12, 2021	Federated LearningThompson Sampling	—Unverified	0
The Hardness Analysis of Thompson Sampling for Combinatorial Semi-bandits with Greedy Oracle	Nov 8, 2021	Combinatorial OptimizationOpen-Ended Question Answering	—Unverified	0
Maillard Sampling: Boltzmann Exploration Done Optimally	Nov 5, 2021	counterfactualThompson Sampling	—Unverified	0
Online Learning of Energy Consumption for Navigation of Electric Vehicles	Nov 3, 2021	NavigateThompson Sampling	—Unverified	0
Efficient Inference Without Trading-off Regret in Bandits: An Allocation Probability Test for Thompson Sampling	Oct 30, 2021	Thompson Sampling	—Unverified	0

Show:10 25 50

← PrevPage 12 of 27Next →

No leaderboard results yet.