Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 531–540 of 15113 papers

Title	Date	Tasks	Status	Hype
BQSched: A Non-intrusive Scheduler for Batch Concurrent Queries via Reinforcement Learning	Apr 27, 2025	Reinforcement Learning (RL)Scheduling	CodeCode Available	0
Neurophysiologically Realistic Environment for Comparing Adaptive Deep Brain Stimulation Algorithms in Parkinson Disease	Apr 26, 2025	Deep Reinforcement LearningReinforcement Learning (RL)	CodeCode Available	1
Explainable AI for UAV Mobility Management: A Deep Q-Network Approach for Handover Minimization	Apr 25, 2025	ManagementReinforcement Learning (RL)	—Unverified	0
LLM-hRIC: LLM-empowered Hierarchical RAN Intelligent Control for O-RAN	Apr 25, 2025	ManagementReinforcement Learning (RL)	—Unverified	0
Depth-Constrained ASV Navigation with Deep RL and Limited Sensing	Apr 25, 2025	Decision MakingReinforcement Learning (RL)	—Unverified	0
CaRL: Learning Scalable Planning Policies with Simple Rewards	Apr 24, 2025	Autonomous DrivingCARLA longest6	CodeCode Available	2
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning	Apr 24, 2025	Decision MakingReinforcement Learning (RL)	CodeCode Available	7
Training Large Language Models to Reason via EM Policy Gradient	Apr 24, 2025	GSM8KMath	—Unverified	0
SAPO-RL: Sequential Actuator Placement Optimization for Fuselage Assembly via Reinforcement Learning	Apr 24, 2025	Decision MakingQ-Learning	—Unverified	0
Integrating Learning-Based Manipulation and Physics-Based Locomotion for Whole-Body Badminton Robot Control	Apr 24, 2025	Imitation LearningReinforcement Learning (RL)	—Unverified	0

Show:10 25 50

← PrevPage 54 of 1512Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified