SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–110 of 655 papers

Title	Date	Tasks	Status
DRL-based Joint Resource Scheduling of eMBB and URLLC in O-RAN	Jul 16, 2024	Decision MakingDeep Reinforcement Learning	—Unverified
Preferential Multi-Objective Bayesian Optimization	Jun 20, 2024	Autonomous DrivingBayesian Optimization	—Unverified
Bayesian Bandit Algorithms with Approximate Inference in Stochastic Linear Bandits	Jun 20, 2024	Bayesian InferenceThompson Sampling	—Unverified
Joint User Association and Pairing in Multi-UAV-Assisted NOMA Networks: A Decaying-Epsilon Thompson Sampling Framework	Jun 20, 2024	Thompson Sampling	—Unverified
Memory Sequence Length of Data Sampling Impacts the Adaptation of Meta-Reinforcement Learning Agents	Jun 18, 2024	continuous-controlContinuous Control	—Unverified
More Efficient Randomized Exploration for Reinforcement Learning via Approximate Sampling	Jun 18, 2024	reinforcement-learningReinforcement Learning	CodeCode Available
Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions	Jun 16, 2024	Multi-Armed BanditsPolicy Gradient Methods	—Unverified
Graph Neural Thompson Sampling	Jun 15, 2024	Decision MakingGraph Neural Network	—Unverified
A Federated Online Restless Bandit Framework for Cooperative Resource Allocation	Jun 12, 2024	Federated LearningMulti-Armed Bandits	—Unverified
DISCO: An End-to-End Bandit Framework for Personalised Discount Allocation	Jun 10, 2024	Thompson Sampling	—Unverified

Show:10 25 50

← PrevPage 11 of 66Next →

No leaderboard results yet.