Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3876–3900 of 15113 papers

Title	Date	Tasks	Status
A General Theory of Relativity in Reinforcement Learning	Sep 29, 2021	reinforcement-learningReinforcement Learning	—Unverified
Adaptive Road Configurations for Improved Autonomous Vehicle-Pedestrian Interactions using Reinforcement Learning	Mar 22, 2023	Autonomous VehiclesManagement	—Unverified
DeepThermal: Combustion Optimization for Thermal Power Generating Units Using Offline Reinforcement Learning	Feb 23, 2021	Continuous ControlOffline RL	—Unverified
CORE: Constraint-Aware One-Step Reinforcement Learning for Simulation-Guided Neural Network Accelerator Design	Jun 4, 2025	Reinforcement Learning (RL)	—Unverified
Effective Reinforcement Learning Based on Structural Information Principles	Apr 15, 2024	Decision Makingreinforcement-learning	—Unverified
Deep Transfer Q-Learning for Offline Non-Stationary Reinforcement Learning	Jan 8, 2025	Decision MakingInductive Learning	—Unverified
A Comparative Study of Reinforcement Learning Techniques on Dialogue Management	Apr 1, 2012	Dialogue ManagementManagement	—Unverified
CORAL: Contextual Response Retrievability Loss Function for Training Dialog Generation Models	May 21, 2022	Reinforcement Learning (RL)Text Generation	—Unverified
A Multiagent Reinforcement Learning Algorithm with Non-linear Dynamics	Jan 15, 2014	reinforcement-learningReinforcement Learning	—Unverified
ACTRCE: Augmenting Experience via Teacher’s Advice	May 1, 2019	reinforcement-learningReinforcement Learning	—Unverified
DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO	Jun 9, 2025	Data AugmentationLarge Language Model	—Unverified
Balancing a CartPole System with Reinforcement Learning -- A Tutorial	Jun 8, 2020	OpenAI GymQ-Learning	—Unverified
Deep VULMAN: A Deep Reinforcement Learning-Enabled Cyber Vulnerability Management Framework	Aug 3, 2022	Decision MakingDeep Reinforcement Learning	—Unverified
DeepWiVe: Deep-Learning-Aided Wireless Video Transmission	Nov 25, 2021	Deep LearningMS-SSIM	—Unverified
Balancing Accuracy and Fairness for Interactive Recommendation with Reinforcement Learning	Jun 25, 2021	FairnessInteractive Recommendation	—Unverified
CoRAL: Collaborative Retrieval-Augmented Large Language Models Improve Long-tail Recommendation	Mar 11, 2024	Recommendation SystemsReinforcement Learning (RL)	—Unverified
Adversary Agnostic Robust Deep Reinforcement Learning	Aug 14, 2020	Adversarial RobustnessAtari Games	—Unverified
Balancing Constraints and Rewards with Meta-Gradient D4PG	Oct 13, 2020	MuJoCoReinforcement Learning (RL)	—Unverified
Defense Against Reward Poisoning Attacks in Reinforcement Learning	Feb 10, 2021	reinforcement-learningReinforcement Learning	—Unverified
Assessment of Reward Functions in Reinforcement Learning for Multi-Modal Urban Traffic Control under Real-World limitations	Oct 17, 2020	reinforcement-learningReinforcement Learning	—Unverified
Defining Admissible Rewards for High Confidence Policy Evaluation	May 30, 2019	Off-policy evaluationReinforcement Learning	—Unverified
Definition and evaluation of model-free coordination of electrical vehicle charging with reinforcement learning	Sep 27, 2018	Model Predictive Controlreinforcement-learning	—Unverified
A General Perspective on Objectives of Reinforcement Learning	Jun 5, 2023	reinforcement-learningReinforcement Learning	—Unverified
Deflated Dynamics Value Iteration	Jul 15, 2024	Reinforcement Learning (RL)	—Unverified
Distributed Reinforcement Learning for Robot Teams: A Review	Apr 7, 2022	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 156 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified