Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 9776–9800 of 15113 papers

Title	Date	Tasks	Status
Deep Reinforcement Learning with Surrogate Agent-Environment Interface	Sep 12, 2017	continuous-controlContinuous Control	—Unverified
Deep Reinforcement Learning with Symmetric Prior for Predictive Power Allocation to Mobile Users	Feb 10, 2021	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified
Deep reinforcement learning with symmetric data augmentation applied for aircraft lateral attitude tracking control	Jul 13, 2024	Data AugmentationDeep Reinforcement Learning	—Unverified
Deep Reinforcement Learning with Vector Quantized Encoding	Nov 12, 2022	Decision MakingDeep Reinforcement Learning	—Unverified
Deep Reinforcement Learning with Weighted Q-Learning	Mar 20, 2020	Deep Reinforcement LearningGaussian Processes	—Unverified
Deep Residual Reinforcement Learning	May 3, 2019	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Deep RL-based Trajectory Planning for AoI Minimization in UAV-assisted IoT	Dec 9, 2019	Decision MakingDeep Reinforcement Learning	—Unverified
Deep RL for Blood Glucose Control: Lessons, Challenges, and Opportunities	Sep 25, 2019	Reinforcement Learning (RL)	—Unverified
Deep RL with Hierarchical Action Exploration for Dialogue Generation	Mar 22, 2023	Dialogue GenerationOffline RL	—Unverified
Deep RL With Information Constrained Policies: Generalization in Continuous Control	Oct 9, 2020	continuous-controlContinuous Control	—Unverified
DeepRNG: Towards Deep Reinforcement Learning-Assisted Generative Testing of Software	Jan 29, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified
DeepScalper: A Risk-Aware Reinforcement Learning Framework to Capture Fleeting Intraday Trading Opportunities	Dec 15, 2021	Algorithmic TradingDecision Making	—Unverified
Deep Sets for Generalization in RL	Mar 20, 2020	NavigateObject	—Unverified
Deep SIMBAD: Active Landmark-based Self-localization Using Ranking -based Scene Descriptor	Sep 6, 2021	Q-LearningReinforcement Learning (RL)	—Unverified
DeepSlicing: Deep Reinforcement Learning Assisted Resource Allocation for Network Slicing	Aug 17, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Deep Surrogate Assisted Generation of Environments	Jun 9, 2022	DiversityReinforcement Learning (RL)	—Unverified
DeepThermal: Combustion Optimization for Thermal Power Generating Units Using Offline Reinforcement Learning	Feb 23, 2021	Continuous ControlOffline RL	—Unverified
Deep Transfer Q-Learning for Offline Non-Stationary Reinforcement Learning	Jan 8, 2025	Decision MakingInductive Learning	—Unverified
DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO	Jun 9, 2025	Data AugmentationLarge Language Model	—Unverified
Deep VULMAN: A Deep Reinforcement Learning-Enabled Cyber Vulnerability Management Framework	Aug 3, 2022	Decision MakingDeep Reinforcement Learning	—Unverified
DeepWiVe: Deep-Learning-Aided Wireless Video Transmission	Nov 25, 2021	Deep LearningMS-SSIM	—Unverified
DEER: A Delay-Resilient Framework for Reinforcement Learning with Variable Delays	Jun 5, 2024	MuJoCoReinforcement Learning (RL)	—Unverified
Adversary Agnostic Robust Deep Reinforcement Learning	Aug 14, 2020	Adversarial RobustnessAtari Games	—Unverified
Defense Against Reward Poisoning Attacks in Reinforcement Learning	Feb 10, 2021	reinforcement-learningReinforcement Learning	—Unverified
Defensive Escort Teams via Multi-Agent Deep Reinforcement Learning	Oct 9, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 392 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified