Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–660 of 15113 papers

Title	Date	Tasks	Status	Hype
Integrating Human Knowledge Through Action Masking in Reinforcement Learning for Operations Research	Apr 3, 2025	ManagementReinforcement Learning (RL)	—Unverified	0
Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme	Apr 3, 2025	Reinforcement Learning (RL)Visual Reasoning	CodeCode Available	2
ThinkPrune: Pruning Long Chain-of-Thought of LLMs via Reinforcement Learning	Apr 2, 2025	Reinforcement Learning (RL)	CodeCode Available	1
De Novo Molecular Design Enabled by Direct Preference Optimization and Curriculum Learning	Apr 2, 2025	Drug DiscoveryReinforcement Learning (RL)	—Unverified	0
Probabilistic Curriculum Learning for Goal-Based Reinforcement Learning	Apr 2, 2025	continuous-controlContinuous Control	—Unverified	0
Do Theory of Mind Benchmarks Need Explicit Human-like Reasoning in Language Models?	Apr 2, 2025	AttributeReinforcement Learning (RL)	CodeCode Available	1
GMAI-VL-R1: Harnessing Reinforcement Learning for Multimodal Medical Reasoning	Apr 2, 2025	Decision MakingDiagnostic	CodeCode Available	1
How Difficulty-Aware Staged Reinforcement Learning Enhances LLMs' Reasoning Capabilities: A Preliminary Experimental Study	Apr 1, 2025	Code GenerationMath	—Unverified	0
MPCritic: A plug-and-play MPC architecture for reinforcement learning	Apr 1, 2025	Model Predictive ControlReinforcement Learning (RL)	CodeCode Available	1
Grounding Multimodal LLMs to Embodied Agents that Ask for Help with Reinforcement Learning	Apr 1, 2025	Reinforcement Learning (RL)Vision-Language-Action	—Unverified	0

Show:10 25 50

← PrevPage 66 of 1512Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified