SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 171–180 of 655 papers

Title	Date	Tasks	Status
Approximate information for efficient exploration-exploitation strategies	Jul 4, 2023	Decision MakingEfficient Exploration	—Unverified
Thompson Sampling under Bernoulli Rewards with Local Differential Privacy	Jul 3, 2023	Thompson Sampling	—Unverified
Thompson sampling for improved exploration in GFlowNets	Jun 30, 2023	Active LearningDecision Making	—Unverified
Geometry-Aware Approaches for Balancing Performance and Theoretical Guarantees in Linear Bandits	Jun 26, 2023	Decision MakingThompson Sampling	—Unverified
Scalable Neural Contextual Bandit for Recommender Systems	Jun 26, 2023	Recommendation SystemsThompson Sampling	—Unverified
Langevin Thompson Sampling with Logarithmic Communication: Bandits and Reinforcement Learning	Jun 15, 2023	Decision MakingMulti-Armed Bandits	—Unverified
Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space	Jun 5, 2023	Thompson Sampling	—Unverified
Incentivizing Exploration with Linear Contexts and Combinatorial Actions	Jun 3, 2023	Thompson Sampling	—Unverified
ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages	Jun 2, 2023	Bayesian Inferencecontinuous-control	CodeCode Available
Combinatorial Neural Bandits	May 31, 2023	Thompson Sampling	—Unverified

Show:10 25 50

← PrevPage 18 of 66Next →

No leaderboard results yet.