Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 15113 papers

Title	Date	Tasks	Status	Hype	Score
s3: You Don't Need That Much Data to Train a Search Agent via RL	May 20, 2025	RAGReinforcement Learning (RL)	CodeCode Available	4	5
Skywork Open Reasoner 1 Technical Report	May 28, 2025	MathReinforcement Learning (RL)	CodeCode Available	4	5
RL4CO: an Extensive Reinforcement Learning for Combinatorial Optimization Benchmark	Jun 29, 2023	Combinatorial OptimizationComputational Efficiency	CodeCode Available	4	5
CPGD: Toward Stable Rule-based Reinforcement Learning for Language Models	May 18, 2025	Reinforcement Learning (RL)	CodeCode Available	4	5
Fin-R1: A Large Language Model for Financial Reasoning through Reinforcement Learning	Mar 20, 2025	Decision MakingLanguage Modeling	CodeCode Available	4	5
RLlib: Abstractions for Distributed Reinforcement Learning	Dec 26, 2017	reinforcement-learningReinforcement Learning	CodeCode Available	4	5
RLlib Flow: Distributed Reinforcement Learning is a Dataflow Problem	Nov 25, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	4	5
QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning	May 23, 2025	Question AnsweringReinforcement Learning (RL)	CodeCode Available	4	5
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning	Mar 7, 2025	RAGReinforcement Learning (RL)	CodeCode Available	4	5
Diffusion Policy Policy Optimization	Sep 1, 2024	continuous-controlContinuous Control	CodeCode Available	4	5
DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation	Jun 25, 2025	Code GenerationDenoising	CodeCode Available	4	5
Discovering faster matrix multiplication algorithms with reinforcement learning	Oct 5, 2022	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	4	5
Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO	May 22, 2025	Domain GeneralizationImage Generation	CodeCode Available	4	5
DeepRetrieval: Hacking Real Search Engines and Retrievers with Large Language Models via Reinforcement Learning	Feb 28, 2025	Information Retrievalreinforcement-learning	CodeCode Available	4	5
Pearl: A Production-ready Reinforcement Learning Agent	Dec 6, 2023	Benchmarkingreinforcement-learning	CodeCode Available	4	5
Ray: A Distributed Framework for Emerging AI Applications	Dec 16, 2017	reinforcement-learningReinforcement Learning	CodeCode Available	4	5
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models	Mar 20, 2025	BenchmarkingReinforcement Learning (RL)	CodeCode Available	4	5
DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to Reality	Oct 25, 2022	Deep Reinforcement LearningGPU	CodeCode Available	4	5
Deep Reinforcement Learning	Oct 15, 2018	Deep Reinforcement LearningManagement	CodeCode Available	3	5
DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning	Apr 15, 2025	Mathematical ReasoningReinforcement Learning (RL)	CodeCode Available	3	5
Adversarial Cheap Talk	Nov 20, 2022	Meta-LearningReinforcement Learning (RL)	CodeCode Available	3	5
MARLlib: A Scalable and Efficient Multi-agent Reinforcement Learning Library	Oct 11, 2022	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	3	5
Mastering the Game of No-Press Diplomacy via Human-Regularized Reinforcement Learning and Planning	Oct 11, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	3	5
Learning to Reason under Off-Policy Guidance	Apr 21, 2025	MathReinforcement Learning (RL)	CodeCode Available	3	5
A Clean Slate for Offline Reinforcement Learning	Apr 15, 2025	Offline RLreinforcement-learning	CodeCode Available	3	5

Show:10 25 50

← PrevPage 3 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified