SOTAVerified|Agents Browse Leaderboard About Blog

Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2801–2810 of 15113 papers

Title	Date	Tasks	Status
Mining-Gym: A Configurable RL Benchmarking Environment for Truck Dispatch Scheduling	Mar 24, 2025	BenchmarkingOpenAI Gym	CodeCode Available
AED: Automatic Discovery of Effective and Diverse Vulnerabilities for Autonomous Driving Policy with Large Language Models	Mar 24, 2025	Autonomous DrivingReinforcement Learning (RL)	—Unverified
Parental Guidance: Efficient Lifelong Learning through Evolutionary Distillation	Mar 24, 2025	Continual LearningDiversity	—Unverified
Teaching LLMs for Step-Level Automatic Math Correction via Reinforcement Learning	Mar 24, 2025	Language ModelingLanguage Modelling	—Unverified
RLCAD: Reinforcement Learning Training Gym for Revolution Involved CAD Command Sequence Generation	Mar 24, 2025	Reinforcement Learning (RL)	—Unverified
Sample-Efficient Reinforcement Learning of Koopman eNMPC	Mar 24, 2025	reinforcement-learningReinforcement Learning	—Unverified
Evolutionary Policy Optimization	Mar 24, 2025	DiversityEvolutionary Algorithms	—Unverified
Adaptive Multi-Fidelity Reinforcement Learning for Variance Reduction in Engineering Design Optimization	Mar 23, 2025	Reinforcement Learning (RL)Scheduling	—Unverified
Optimizing Navigation And Chemical Application in Precision Agriculture With Deep Reinforcement Learning And Conditional Action Tree	Mar 23, 2025	Decision MakingDeep Reinforcement Learning	—Unverified
ViVa: Video-Trained Value Functions for Guiding Online RL from Diverse Data	Mar 23, 2025	Reinforcement Learning (RL)	—Unverified

Show:10 25 50

← PrevPage 281 of 1512Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified