Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–375 of 15113 papers

Title	Date	Tasks	Status	Hype
LLM-Explorer: A Plug-in Reinforcement Learning Policy Exploration Enhancement Driven by Large Language Models	May 21, 2025	MuJoCoReinforcement Learning (RL)	—Unverified	0
Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL	May 21, 2025	4kMultimodal Reasoning	—Unverified	0
VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL	May 21, 2025	Reinforcement Learning (RL)	—Unverified	0
Multiple Weaks Win Single Strong: Large Language Models Ensemble Weak Reinforcement Learning Agents into a Supreme One	May 21, 2025	Model SelectionReinforcement Learning (RL)	—Unverified	0
Pass@K Policy Optimization: Solving Harder Reinforcement Learning Problems	May 21, 2025	reinforcement-learningReinforcement Learning	—Unverified	0
Average Reward Reinforcement Learning for Omega-Regular and Mean-Payoff Objectives	May 21, 2025	Reinforcement Learning (RL)	—Unverified	0
RL Tango: Reinforcing Generator and Verifier Together for Language Reasoning	May 21, 2025	MathMathematical Reasoning	CodeCode Available	2
HCRMP: A LLM-Hinted Contextual Reinforcement Learning Framework for Autonomous Driving	May 21, 2025	Autonomous DrivingHallucination	—Unverified	0
Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities	May 21, 2025	MathReinforcement Learning (RL)	—Unverified	0
From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning	May 21, 2025	Question AnsweringReinforcement Learning (RL)	CodeCode Available	1
When Can Large Reasoning Models Save Thinking? Mechanistic Analysis of Behavioral Divergence in Reasoning	May 21, 2025	Reinforcement Learning (RL)	—Unverified	0
MMaDA: Multimodal Large Diffusion Language Models	May 21, 2025	Image GenerationReinforcement Learning (RL)	CodeCode Available	0
VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models	May 21, 2025	BenchmarkingReinforcement Learning (RL)	—Unverified	0
RL of Thoughts: Navigating LLM Reasoning with Inference-time Reinforcement Learning	May 20, 2025	MathReinforcement Learning (RL)	—Unverified	0
Bellman operator convergence enhancements in reinforcement learning algorithms	May 20, 2025	AcrobotDecision Making	—Unverified	0
Self-Evolving Curriculum for LLM Reasoning	May 20, 2025	Code GenerationPolicy Gradient Methods	—Unverified	0
KIPPO: Koopman-Inspired Proximal Policy Optimization	May 20, 2025	Computational Efficiencycontinuous-control	—Unverified	0
Normalized Cut with Reinforcement Learning in Constrained Action Space	May 20, 2025	Combinatorial Optimizationreinforcement-learning	—Unverified	0
General-Reasoner: Advancing LLM Reasoning Across All Domains	May 20, 2025	AllMath	CodeCode Available	3
AAPO: Enhance the Reasoning Capabilities of LLMs with Advantage Momentum	May 20, 2025	Mathematical ReasoningReinforcement Learning (RL)	—Unverified	0
TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning	May 20, 2025	MathReinforcement Learning (RL)	CodeCode Available	1
Think-J: Learning to Think for Generative LLM-as-a-Judge	May 20, 2025	Offline RLReinforcement Learning (RL)	CodeCode Available	0
Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning	May 20, 2025	MMLUReinforcement Learning (RL)	—Unverified	0
Toward Effective Reinforcement Learning Fine-Tuning for Medical VQA in Vision-Language Models	May 20, 2025	Medical Visual Question AnsweringQuestion Answering	—Unverified	0
UniVG-R1: Reasoning Guided Universal Visual Grounding with Reinforcement Learning	May 20, 2025	Large Language ModelMultimodal Large Language Model	—Unverified	0

Show:10 25 50

← PrevPage 15 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified