SOTAVerified|Agents Browse Leaderboard About Blog

Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2671–2680 of 15113 papers

Title	Date	Tasks	Status
LLMs for Engineering: Teaching Models to Design High Powered Rockets	Apr 27, 2025	Reinforcement Learning (RL)	—Unverified
BQSched: A Non-intrusive Scheduler for Batch Concurrent Queries via Reinforcement Learning	Apr 27, 2025	Reinforcement Learning (RL)Scheduling	CodeCode Available
LLM-hRIC: LLM-empowered Hierarchical RAN Intelligent Control for O-RAN	Apr 25, 2025	ManagementReinforcement Learning (RL)	—Unverified
Explainable AI for UAV Mobility Management: A Deep Q-Network Approach for Handover Minimization	Apr 25, 2025	ManagementReinforcement Learning (RL)	—Unverified
Depth-Constrained ASV Navigation with Deep RL and Limited Sensing	Apr 25, 2025	Decision MakingReinforcement Learning (RL)	—Unverified
Training Large Language Models to Reason via EM Policy Gradient	Apr 24, 2025	GSM8KMath	—Unverified
Integrating Learning-Based Manipulation and Physics-Based Locomotion for Whole-Body Badminton Robot Control	Apr 24, 2025	Imitation LearningReinforcement Learning (RL)	—Unverified
SAPO-RL: Sequential Actuator Placement Optimization for Fuselage Assembly via Reinforcement Learning	Apr 24, 2025	Decision MakingQ-Learning	—Unverified
Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator	Apr 23, 2025	Offline RLReinforcement Learning (RL)	—Unverified
Data-Assimilated Model-Based Reinforcement Learning for Partially Observed Chaotic Flows	Apr 23, 2025	Model-based Reinforcement LearningReinforcement Learning (RL)	—Unverified

Show:10 25 50

← PrevPage 268 of 1512Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified