SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 381–390 of 655 papers

Title	Date	Tasks	Status
Reward Biased Maximum Likelihood Estimation for Reinforcement Learning	Nov 16, 2020	Multi-Armed Banditsreinforcement-learning	—Unverified
Accelerating Grasp Exploration by Leveraging Learned Priors	Nov 11, 2020	ObjectThompson Sampling	—Unverified
Multi-Agent Active Search using Realistic Depth-Aware Noise Model	Nov 9, 2020	object-detectionObject Detection	CodeCode Available
Thompson sampling for linear quadratic mean-field teams	Nov 9, 2020	Thompson Sampling	—Unverified
Asymptotic Convergence of Thompson Sampling	Nov 8, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Adaptive Combinatorial Allocation	Nov 4, 2020	Thompson Sampling	—Unverified
Greedy k-Center from Noisy Distance Samples	Nov 3, 2020	Thompson Sampling	—Unverified
Multi-armed Bandits with Cost Subsidy	Nov 3, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Screening for an Infectious Disease as a Problem in Stochastic Control	Nov 1, 2020	Thompson Sampling	—Unverified
Bandit Policies for Reliable Cellular Network Handovers in Extreme Mobility	Oct 28, 2020	Thompson Sampling	—Unverified

Show:10 25 50

← PrevPage 39 of 66Next →

No leaderboard results yet.