Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 721–730 of 15113 papers

Title	Date	Tasks	Status	Hype
ComfyGPT: A Self-Optimizing Multi-Agent System for Comprehensive ComfyUI Workflow Generation	Mar 22, 2025	Image GenerationReinforcement Learning (RL)	—Unverified	0
A Roadmap Towards Improving Multi-Agent Reinforcement Learning With Causal Discovery And Inference	Mar 22, 2025	Causal DiscoveryMulti-agent Reinforcement Learning	—Unverified	0
Causally Aligned Curriculum Learning	Mar 21, 2025	Reinforcement Learning (RL)	—Unverified	0
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement	Mar 21, 2025	Multimodal ReasoningReinforcement Learning (RL)	CodeCode Available	2
Curriculum RL meets Monte Carlo Planning: Optimization of a Real World Container Management Problem	Mar 21, 2025	Collision AvoidanceManagement	CodeCode Available	0
Autonomous Radiotherapy Treatment Planning Using DOLA: A Privacy-Preserving, LLM-Based Optimization Agent	Mar 21, 2025	Large Language ModelPrivacy Preserving	—Unverified	0
Towards Automated Semantic Interpretability in Reinforcement Learning via Vision-Language Models	Mar 20, 2025	reinforcement-learningReinforcement Learning	—Unverified	0
Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't	Mar 20, 2025	Mathematical ReasoningReinforcement Learning (RL)	CodeCode Available	3
Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning	Mar 20, 2025	ClassificationFew-Shot Learning	CodeCode Available	2
RL4Med-DDPO: Reinforcement Learning for Controlled Guidance Towards Diverse Medical Image Generation using Vision-Language Foundation Models	Mar 20, 2025	Image GenerationMedical Image Generation	—Unverified	0

Show:10 25 50

← PrevPage 73 of 1512Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified