Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1031–1040 of 15113 papers

Title	Date	Tasks	Status	Hype	Score
DROPO: Sim-to-Real Transfer with Offline Domain Randomization	Jan 20, 2022	Reinforcement Learning (RL)	CodeCode Available	1	5
DuoGuard: A Two-Player RL-Driven Framework for Multilingual LLM Guardrails	Feb 7, 2025	Reinforcement Learning (RL)Synthetic Data Generation	CodeCode Available	1	5
Dream to Control: Learning Behaviors by Latent Imagination	Dec 3, 2019	Continuous Controlreinforcement-learning	CodeCode Available	1	5
Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start	May 28, 2025	MathMultimodal Reasoning	CodeCode Available	1	5
Driver Dojo: A Benchmark for Generalizable Reinforcement Learning for Autonomous Driving	Jul 23, 2022	Autonomous Drivingreinforcement-learning	CodeCode Available	1	5
Automatic Noise Filtering with Dynamic Sparse Training in Deep Reinforcement Learning	Feb 13, 2023	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1	5
DRL4Route: A Deep Reinforcement Learning Framework for Pick-up and Delivery Route Prediction	Jul 30, 2023	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1	5
Automatic Data Augmentation for Generalization in Reinforcement Learning	Dec 1, 2021	Data AugmentationDeep Reinforcement Learning	CodeCode Available	1	5
Automatic Data Augmentation for Generalization in Deep Reinforcement Learning	Jun 23, 2020	Data AugmentationDeep Reinforcement Learning	CodeCode Available	1	5
DreamerPro: Reconstruction-Free Model-Based Reinforcement Learning with Prototypical Representations	Oct 27, 2021	Model-based Reinforcement Learningreinforcement-learning	CodeCode Available	1	5

Show:10 25 50

← PrevPage 104 of 1512Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified