SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–410 of 655 papers

Title	Date	Tasks	Status
Causal Bandits without prior knowledge using separating sets	Sep 16, 2020	Causal DiscoveryDecision Making	—Unverified
Thompson Sampling for Unsupervised Sequential Selection	Sep 16, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
A Change-Detection Based Thompson Sampling Framework for Non-Stationary Bandits	Sep 6, 2020	Change DetectionThompson Sampling	—Unverified
Efficient Online Learning for Cognitive Radar-Cellular Coexistence via Contextual Thompson Sampling	Aug 24, 2020	Deep Reinforcement LearningThompson Sampling	—Unverified
Contextual Bandits for Advertising Budget Allocation	Aug 22, 2020	MarketingMulti-Armed Bandits	—Unverified
Near Optimal Adversarial Attacks on Stochastic Bandits and Defenses with Smoothed Responses	Aug 21, 2020	Adversarial AttackThompson Sampling	—Unverified
Reinforcement Learning with Trajectory Feedback	Aug 13, 2020	reinforcement-learningReinforcement Learning	—Unverified
Lenient Regret for Multi-Armed Bandits	Aug 10, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
IntelligentPooling: Practical Thompson Sampling for mHealth	Jul 31, 2020	reinforcement-learningReinforcement Learning	—Unverified
Greedy Bandits with Sampled Context	Jul 27, 2020	Decision MakingMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 41 of 66Next →

No leaderboard results yet.