SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 131–140 of 655 papers

Title	Date	Tasks	Status
Blind Exploration and Exploitation of Stochastic Experts	Apr 2, 2021	Thompson Sampling	—Unverified
A Nonparametric Contextual Bandit with Arm-level Eligibility Control for Customer Service Routing	Sep 8, 2022	Thompson Sampling	—Unverified
An Online Learning Framework for Energy-Efficient Navigation of Electric Vehicles	Mar 3, 2020	NavigateThompson Sampling	—Unverified
Adaptive Model Selection Framework: An Application to Airline Pricing	May 21, 2019	Model SelectionThompson Sampling	—Unverified
Belief Flows of Robust Online Learning	May 26, 2015	General Classificationregression	—Unverified
BBQ-Networks: Efficient Exploration in Deep Reinforcement Learning for Task-Oriented Dialogue Systems	Aug 17, 2016	Deep Reinforcement LearningEfficient Exploration	—Unverified
An Information-Theoretic Analysis of Thompson Sampling with Infinite Action Spaces	Feb 4, 2025	Thompson Sampling	—Unverified
BBQ-Networks: Efficient Exploration in Deep Reinforcement Learning for Task-Oriented Dialogue Systems	Nov 15, 2017	Deep Reinforcement LearningEfficient Exploration	—Unverified
Best Arm Identification in Batched Multi-armed Bandit Problems	Dec 21, 2023	MarketingThompson Sampling	—Unverified
Bayesian Quantile and Expectile Optimisation	Jan 12, 2020	Bayesian OptimisationGaussian Processes	—Unverified

Show:10 25 50

← PrevPage 14 of 66Next →

No leaderboard results yet.