SOTAVerified|Agents Browse Leaderboard About Blog

Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3511–3520 of 15113 papers

Title	Date	Tasks	Status
Deep Reinforcement Learning and the Deadly Triad	Dec 6, 2018	Deep Reinforcement LearningLearning Theory	—Unverified
Automated Lane Change Strategy using Proximal Policy Optimization-based Deep Reinforcement Learning	Feb 7, 2020	Autonomous DrivingDeep Reinforcement Learning	—Unverified
Deep Reinforcement Learning: An Overview	Jun 23, 2018	BIG-bench Machine LearningDeep Learning	—Unverified
Deep Reinforcement Learning Approach for Trading Automation in The Stock Market	Jul 5, 2022	Decision MakingDeep Reinforcement Learning	—Unverified
Deep reinforcement learning approach to MIMO precoding problem: Optimality and Robustness	Jun 30, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Deep Reinforcement Learning Assisted Federated Learning Algorithm for Data Management of IIoT	Feb 3, 2022	Deep Reinforcement LearningFederated Learning	—Unverified
Accelerating the Computation of UCB and Related Indices for Reinforcement Learning	Sep 28, 2019	reinforcement-learningReinforcement Learning	—Unverified
DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO	Jun 9, 2025	Data AugmentationLarge Language Model	—Unverified
Defense Against Reward Poisoning Attacks in Reinforcement Learning	Feb 10, 2021	reinforcement-learningReinforcement Learning	—Unverified
A Stochastic Composite Augmented Lagrangian Method For Reinforcement Learning	May 20, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 352 of 1512Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified