SOTAVerified|Agents Browse Leaderboard About Blog

Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4141–4150 of 15113 papers

Title	Date	Tasks	Status
AdapShare: An RL-Based Dynamic Spectrum Sharing Solution for O-RAN	Aug 29, 2024	FairnessReinforcement Learning (RL)	—Unverified
Adaptable Automation with Modular Deep Reinforcement Learning and Policy Transfer	Nov 27, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Query Rewriting for Effective Misinformation Discovery	Oct 14, 2022	Misinformationreinforcement-learning	—Unverified
Adaptable image quality assessment using meta-reinforcement learning of task amenability	Jul 31, 2021	image-classificationImage Classification	—Unverified
Adaptable Recovery Behaviors in Robotics: A Behavior Trees and Motion Generators(BTMG) Approach for Failure Management	Apr 9, 2024	ManagementReinforcement Learning (RL)	—Unverified
Adaptation of Quadruped Robot Locomotion with Meta-Learning	Jul 8, 2021	Meta-LearningMeta Reinforcement Learning	—Unverified
AdapThink: Adaptive Thinking Preferences for Reasoning Language Model	Jun 23, 2025	DiversityLanguage Modeling	—Unverified
Adapting Auxiliary Losses Using Gradient Similarity	Dec 5, 2018	Atari Gamesreinforcement-learning	—Unverified
Adapting Behaviour via Intrinsic Reward: A Survey and Empirical Study	Jun 19, 2019	Active Learningreinforcement-learning	—Unverified
Adapting Sampling Interval of Sensor Networks Using On-Line Reinforcement Learning	Jun 7, 2016	reinforcement-learningReinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 415 of 1512Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified