Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2451–2500 of 15113 papers

Title	Date	Tasks	Status
Rendering-Aware Reinforcement Learning for Vector Graphics Generation	May 27, 2025	Code Generationreinforcement-learning	—Unverified
Breaking the Performance Ceiling in Complex Reinforcement Learning requires Inference Strategies	May 27, 2025	Protein DesignReinforcement Learning (RL)	—Unverified
Interactive OT Gym: A Reinforcement Learning-Based Interactive Optical tweezer (OT)-Driven Microrobotics Simulation Platform	May 27, 2025	Reinforcement Learning (RL)	—Unverified
Refining Few-Step Text-to-Multiview Diffusion via Reinforcement Learning	May 26, 2025	Denoisingreinforcement-learning	CodeCode Available
VLMLight: Traffic Signal Control via Vision-Language Meta-Control and Dual-Branch Reasoning	May 26, 2025	Large Language ModelReinforcement Learning (RL)	—Unverified
MedDreamer: Model-Based Reinforcement Learning with Latent Imagination on Complex EHRs for Clinical Decision Support	May 26, 2025	ImputationModel-based Reinforcement Learning	—Unverified
Fox in the Henhouse: Supply-Chain Backdoor Attacks Against Reinforcement Learning	May 26, 2025	Reinforcement Learning (RL)	—Unverified
Interleaved Reasoning for Large Language Models via Reinforcement Learning	May 26, 2025	Logical ReasoningMath	—Unverified
Done Is Better than Perfect: Unlocking Efficient Reasoning by Structured Multi-Turn Decomposition	May 26, 2025	MathReinforcement Learning (RL)	—Unverified
Curriculum-RLAIF: Curriculum Alignment with Reinforcement Learning from AI Feedback	May 26, 2025	reinforcement-learningReinforcement Learning	—Unverified
Unveiling the Compositional Ability Gap in Vision-Language Reasoning Model	May 26, 2025	DiagnosticReinforcement Learning (RL)	CodeCode Available
Incentivizing Reasoning from Weak Supervision	May 26, 2025	reinforcement-learningReinforcement Learning	CodeCode Available
TeViR: Text-to-Video Reward with Diffusion Models for Efficient Reinforcement Learning	May 26, 2025	reinforcement-learningReinforcement Learning	—Unverified
Surrogate-Assisted Evolutionary Reinforcement Learning Based on Autoencoder and Hyperbolic Neural Network	May 26, 2025	Evolutionary AlgorithmsMuJoCo	—Unverified
What Can RL Bring to VLA Generalization? An Empirical Study	May 26, 2025	Reinforcement Learning (RL)Vision-Language-Action	—Unverified
DISCOVER: Automated Curricula for Sparse-Reward Reinforcement Learning	May 26, 2025	Efficient Explorationreinforcement-learning	CodeCode Available
MT^3: Scaling MLLM-based Text Image Machine Translation via Multi-Task Reinforcement Learning	May 26, 2025	document understandingMachine Translation	—Unverified
Learning to Trust Bellman Updates: Selective State-Adaptive Regularization for Offline RL	May 26, 2025	D4RLOffline RL	CodeCode Available
VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization	May 25, 2025	Reinforcement Learning (RL)	CodeCode Available
Semi-pessimistic Reinforcement Learning	May 25, 2025	reinforcement-learningReinforcement Learning	—Unverified
FedORA: Resource Allocation for Federated Learning in ORAN using Radio Intelligent Controllers	May 25, 2025	Federated LearningReinforcement Learning (RL)	—Unverified
A Snapshot of Influence: A Local Data Attribution Framework for Online Reinforcement Learning	May 25, 2025	Reinforcement Learning (RL)	CodeCode Available
Reduce Computational Cost In Deep Reinforcement Learning Via Randomized Policy Learning	May 25, 2025	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified
Reinforced Latent Reasoning for LLM-based Recommendation	May 25, 2025	Recommendation SystemsReinforcement Learning (RL)	—Unverified
TextDiffuser-RL: Efficient and Robust Text Layout Optimization for High-Fidelity Text-to-Image Synthesis	May 25, 2025	CPUGPU	—Unverified
The Overthinker's DIET: Cutting Token Calories with DIfficulty-AwarE Training	May 25, 2025	Reinforcement Learning (RL)Token Reduction	—Unverified
Hybrid Latent Reasoning via Reinforcement Learning	May 24, 2025	reinforcement-learningReinforcement Learning	CodeCode Available
GenPO: Generative Diffusion Models Meet On-Policy Reinforcement Learning	May 24, 2025	GPUOffline RL	—Unverified
Steering LLM Reasoning Through Bias-Only Adaptation	May 24, 2025	GSM8KMath	—Unverified
G1: Teaching LLMs to Reason on Graphs with Reinforcement Learning	May 24, 2025	Link PredictionNode Classification	—Unverified
AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting	May 24, 2025	GSM8KReinforcement Learning (RL)	CodeCode Available
On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization	May 24, 2025	MathReinforcement Learning (RL)	—Unverified
Guided by Guardrails: Control Barrier Functions as Safety Instructors for Robotic Learning	May 24, 2025	Reinforcement Learning (RL)	—Unverified
One Policy but Many Worlds: A Scalable Unified Policy for Versatile Humanoid Locomotion	May 24, 2025	Humanoid ControlMotion Synthesis	—Unverified
Diffusion Blend: Inference-Time Multi-Preference Alignment for Diffusion Models	May 24, 2025	Reinforcement Learning (RL)	CodeCode Available
WiNGPT-3.0 Technical Report	May 23, 2025	DiagnosticMedQA	CodeCode Available
Alignment and Safety of Diffusion Models via Reinforcement Learning and Reward Modeling: A Survey	May 23, 2025	Active LearningReinforcement Learning (RL)	—Unverified
Diffusion Self-Weighted Guidance for Offline Reinforcement Learning	May 23, 2025	Offline RLreinforcement-learning	—Unverified
One RL to See Them All: Visual Triple Unified Reinforcement Learning	May 23, 2025	AllMath	—Unverified
Reinforcement Speculative Decoding for Fast Ranking	May 23, 2025	Information RetrievalRecommendation Systems	—Unverified
Thinking Fast and Right: Balancing Accuracy and Reasoning Length with Adaptive Rewards	May 23, 2025	Reinforcement Learning (RL)	CodeCode Available
Divide-Fuse-Conquer: Eliciting "Aha Moments" in Multi-Scenario Games	May 22, 2025	Reinforcement Learning (RL)	—Unverified
Backdoors in DRL: Four Environments Focusing on In-distribution Triggers	May 22, 2025	Backdoor AttackData Poisoning	—Unverified
VL-SAFE: Vision-Language Guided Safety-Aware Reinforcement Learning with World Models for Autonomous Driving	May 22, 2025	Autonomous DrivingReinforcement Learning (RL)	—Unverified
Reward-Aware Proto-Representations in Reinforcement Learning	May 22, 2025	reinforcement-learningReinforcement Learning	—Unverified
RAP: Runtime-Adaptive Pruning for LLM Inference	May 22, 2025	Reinforcement Learning (RL)	—Unverified
Mesh-RFT: Enhancing Mesh Generation via Fine-grained Reinforcement Fine-Tuning	May 22, 2025	Reinforcement Learning (RL)	—Unverified
Find the Fruit: Designing a Zero-Shot Sim2Real Deep RL Planner for Occlusion Aware Plant Manipulation	May 22, 2025	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified
Control of Renewable Energy Communities using AI and Real-World Data	May 22, 2025	Data Integrationenergy management	—Unverified
AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning	May 22, 2025	Mathreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 50 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified