Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4126–4150 of 15113 papers

Title	Date	Tasks	Status
Actor-Critic Sequence Training for Image Captioning	Jun 29, 2017	AI AgentImage Captioning	—Unverified
Actor Critic with Differentially Private Critic	Oct 14, 2019	reinforcement-learningReinforcement Learning	—Unverified
Actor-Critic with variable time discretization via sustained actions	Aug 8, 2023	Reinforcement Learning (RL)	—Unverified
Actor-Director-Critic: A Novel Deep Reinforcement Learning Framework	Jan 10, 2023	Action ClassificationDecision Making	—Unverified
ACTRCE: Augmenting Experience via Teacher's Advice For Multi-Goal Reinforcement Learning	Feb 12, 2019	Multi-Goal Reinforcement Learningreinforcement-learning	—Unverified
ACTRCE: Augmenting Experience via Teacher’s Advice	May 1, 2019	reinforcement-learningReinforcement Learning	—Unverified
ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning	Oct 12, 2024	Efficient Explorationreinforcement-learning	—Unverified
A Cubic-regularized Policy Newton Algorithm for Reinforcement Learning	Apr 21, 2023	reinforcement-learningReinforcement Learning	—Unverified
AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning	May 17, 2025	Reinforcement Learning (RL)	—Unverified
AdaCred: Adaptive Causal Decision Transformers with Feature Crediting	Dec 19, 2024	AttributeImitation Learning	—Unverified
AdaMemento: Adaptive Memory-Assisted Policy Optimization for Reinforcement Learning	Oct 6, 2024	Ensemble Learningreinforcement-learning	—Unverified
Adam on Local Time: Addressing Nonstationarity in RL with Relative Adam Timesteps	Dec 22, 2024	Reinforcement Learning (RL)	—Unverified
Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation	Jun 9, 2023	Policy Gradient Methodsreinforcement-learning	—Unverified
adaPARL: Adaptive Privacy-Aware Reinforcement Learning for Sequential-Decision Making Human-in-the-Loop Systems	Mar 7, 2023	Decision MakingReinforcement Learning (RL)	—Unverified
AdaPool: A Diurnal-Adaptive Fleet Management Framework using Model-Free Deep Reinforcement Learning and Change Point Detection	Apr 1, 2021	Change Point DetectionDeep Reinforcement Learning	—Unverified
AdapShare: An RL-Based Dynamic Spectrum Sharing Solution for O-RAN	Aug 29, 2024	FairnessReinforcement Learning (RL)	—Unverified
Adaptable Automation with Modular Deep Reinforcement Learning and Policy Transfer	Nov 27, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Query Rewriting for Effective Misinformation Discovery	Oct 14, 2022	Misinformationreinforcement-learning	—Unverified
Adaptable image quality assessment using meta-reinforcement learning of task amenability	Jul 31, 2021	image-classificationImage Classification	—Unverified
Adaptable Recovery Behaviors in Robotics: A Behavior Trees and Motion Generators(BTMG) Approach for Failure Management	Apr 9, 2024	ManagementReinforcement Learning (RL)	—Unverified
Adaptation of Quadruped Robot Locomotion with Meta-Learning	Jul 8, 2021	Meta-LearningMeta Reinforcement Learning	—Unverified
AdapThink: Adaptive Thinking Preferences for Reasoning Language Model	Jun 23, 2025	DiversityLanguage Modeling	—Unverified
Adapting Auxiliary Losses Using Gradient Similarity	Dec 5, 2018	Atari Gamesreinforcement-learning	—Unverified
Adapting Behaviour via Intrinsic Reward: A Survey and Empirical Study	Jun 19, 2019	Active Learningreinforcement-learning	—Unverified
Adapting Sampling Interval of Sensor Networks Using On-Line Reinforcement Learning	Jun 7, 2016	reinforcement-learningReinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 166 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified