SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 461–470 of 655 papers

Title	Date	Tasks	Status
On Kernelized Multi-Armed Bandits with Constraints	Mar 29, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
On learning Whittle index policy for restless bandits with scalable regret	Feb 7, 2022	SchedulingThompson Sampling	—Unverified
Online Algorithms For Parameter Mean And Variance Estimation In Dynamic Regression Models	May 18, 2016	parameter estimationregression	—Unverified
Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits	Feb 18, 2023	Hyperparameter OptimizationMulti-Armed Bandits	—Unverified
Online Causal Inference for Advertising in Real-Time Bidding Auctions	Aug 22, 2019	Causal InferenceExperimental Design	—Unverified
Online Learning and Distributed Control for Residential Demand Response	Oct 11, 2020	Stochastic OptimizationThompson Sampling	—Unverified
Online Learning-based Waveform Selection for Improved Vehicle Recognition in Automotive Radar	Dec 1, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Online Learning of Energy Consumption for Navigation of Electric Vehicles	Nov 3, 2021	NavigateThompson Sampling	—Unverified
Online Learning of Network Bottlenecks via Minimax Paths	Sep 17, 2021	Thompson Sampling	—Unverified
Online Residential Demand Response via Contextual Multi-Armed Bandits	Mar 7, 2020	Decision MakingMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 47 of 66Next →

No leaderboard results yet.