SOTAVerified|Agents Browse Leaderboard About Blog

Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2521–2530 of 15113 papers

Title	Date	Tasks	Status
VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models	May 21, 2025	BenchmarkingReinforcement Learning (RL)	—Unverified
A Temporal Difference Method for Stochastic Continuous Dynamics	May 21, 2025	reinforcement-learningReinforcement Learning	CodeCode Available
Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning	May 21, 2025	Language ModelingLanguage Modelling	—Unverified
Learning-based Autonomous Oversteer Control and Collision Avoidance	May 21, 2025	Autonomous DrivingCollision Avoidance	—Unverified
When Can Large Reasoning Models Save Thinking? Mechanistic Analysis of Behavioral Divergence in Reasoning	May 21, 2025	Reinforcement Learning (RL)	—Unverified
Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities	May 21, 2025	MathReinforcement Learning (RL)	—Unverified
STAR-R1: Spacial TrAnsformation Reasoning by Reinforcing Multimodal LLMs	May 21, 2025	Efficient ExplorationReinforcement Learning (RL)	CodeCode Available
ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning	May 21, 2025	Pseudo LabelReinforcement Learning (RL)	—Unverified
GRIT: Teaching MLLMs to Think with Images	May 21, 2025	Reinforcement Learning (RL)Visual Reasoning	—Unverified
LLM-Explorer: A Plug-in Reinforcement Learning Policy Exploration Enhancement Driven by Large Language Models	May 21, 2025	MuJoCoReinforcement Learning (RL)	—Unverified

Show:10 25 50

← PrevPage 253 of 1512Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified