SOTAVerified|Agents Browse Leaderboard About

Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 901–910 of 15113 papers

Title	Date	Tasks	Status	Hype	Score
Continual Reinforcement Learning with Multi-Timescale Replay	Apr 16, 2020	Continual Learningcontinuous-control	CodeCode Available	1	5
Continual World: A Robotic Benchmark For Continual Reinforcement Learning	May 23, 2021	Continual Learningreinforcement-learning	CodeCode Available	1	5
Discovering Hierarchical Achievements in Reinforcement Learning via Contrastive Learning	Jul 7, 2023	Contrastive Learningreinforcement-learning	CodeCode Available	1	5
Discrete Codebook World Models for Continuous Control	Mar 1, 2025	continuous-controlContinuous Control	CodeCode Available	1	5
DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction	Mar 16, 2020	Deep Reinforcement LearningMeta-Learning	CodeCode Available	1	5
Continuous Coordination As a Realistic Scenario for Lifelong Learning	Mar 4, 2021	Continual LearningDeep Reinforcement Learning	CodeCode Available	1	5
Direct Preference Optimization for Neural Machine Translation with Minimum Bayes Risk Decoding	Nov 14, 2023	Machine TranslationNMT	CodeCode Available	1	5
Continuous-Time Model-Based Reinforcement Learning	Feb 9, 2021	modelModel-based Reinforcement Learning	CodeCode Available	1	5
Giraffe: Using Deep Reinforcement Learning to Play Chess	Sep 4, 2015	BIG-bench Machine LearningDeep Reinforcement Learning	CodeCode Available	1	5
DISCOVER: Deep identification of symbolically concise open-form PDEs via enhanced reinforcement-learning	Oct 4, 2022	Deep Reinforcement LearningForm	CodeCode Available	1	5

Show:10 25 50

← PrevPage 91 of 1512Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified