Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 376–400 of 655 papers

Title	Date	Tasks	Status	Hype
Accelerating Grasp Exploration by Leveraging Learned Priors	Nov 11, 2020	ObjectThompson Sampling	—Unverified	0
Thompson sampling for linear quadratic mean-field teams	Nov 9, 2020	Thompson Sampling	—Unverified	0
Multi-Agent Active Search using Realistic Depth-Aware Noise Model	Nov 9, 2020	object-detectionObject Detection	CodeCode Available	0
Asymptotic Convergence of Thompson Sampling	Nov 8, 2020	Multi-Armed BanditsThompson Sampling	—Unverified	0
Adaptive Combinatorial Allocation	Nov 4, 2020	Thompson Sampling	—Unverified	0
Multi-armed Bandits with Cost Subsidy	Nov 3, 2020	Multi-Armed BanditsThompson Sampling	—Unverified	0
Greedy k-Center from Noisy Distance Samples	Nov 3, 2020	Thompson Sampling	—Unverified	0
Screening for an Infectious Disease as a Problem in Stochastic Control	Nov 1, 2020	Thompson Sampling	—Unverified	0
Bandit Policies for Reliable Cellular Network Handovers in Extreme Mobility	Oct 28, 2020	Thompson Sampling	—Unverified	0
Sub-sampling for Efficient Non-Parametric Bandit Exploration	Oct 27, 2020	Thompson Sampling	CodeCode Available	0
Improved Worst-Case Regret Bounds for Randomized Least-Squares Value Iteration	Oct 23, 2020	reinforcement-learningReinforcement Learning	—Unverified	0
Bayesian Algorithms for Decentralized Stochastic Bandits	Oct 20, 2020	Thompson Sampling	CodeCode Available	0
Federated Bayesian Optimization via Thompson Sampling	Oct 20, 2020	Bayesian OptimizationComputational Efficiency	CodeCode Available	1
Reinforcement Learning for Efficient and Tuning-Free Link Adaptation	Oct 16, 2020	reinforcement-learningReinforcement Learning	—Unverified	0
Double-Linear Thompson Sampling for Context-Attentive Bandits	Oct 15, 2020	Medical DiagnosisThompson Sampling	—Unverified	0
Asynchronous ε-Greedy Bayesian Optimisation	Oct 15, 2020	Bayesian OptimisationThompson Sampling	CodeCode Available	0
Online Learning and Distributed Control for Residential Demand Response	Oct 11, 2020	Stochastic OptimizationThompson Sampling	—Unverified	0
Effects of Model Misspecification on Bayesian Bandits: Case Studies in UX Optimization	Oct 7, 2020	Thompson Sampling	—Unverified	0
Neural Thompson Sampling	Oct 2, 2020	Multi-Armed BanditsThompson Sampling	CodeCode Available	1
Stage-wise Conservative Linear Bandits	Sep 30, 2020	FormThompson Sampling	—Unverified	0
Neural Model-based Optimization with Right-Censored Observations	Sep 29, 2020	modelregression	—Unverified	0
Position-Based Multiple-Play Bandits with Thompson Sampling	Sep 28, 2020	PositionRecommendation Systems	—Unverified	0
Bandit Change-Point Detection for Real-Time Monitoring High-Dimensional Data Under Sampling Control	Sep 24, 2020	Change Point DetectionComputational Efficiency	—Unverified	0
Partially Observable Online Change Detection via Smooth-Sparse Decomposition	Sep 22, 2020	Bayesian InferenceChange Detection	—Unverified	0
Bandits Under The Influence (Extended Version)	Sep 21, 2020	Recommendation SystemsThompson Sampling	—Unverified	0

Show:10 25 50

← PrevPage 16 of 27Next →

No leaderboard results yet.