Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10076–10100 of 15113 papers

Title	Date	Tasks	Status
Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning	Apr 23, 2020	continuous-controlContinuous Control	—Unverified
Divide-and-Conquer Monte Carlo Tree Search	Jan 1, 2021	continuous-controlContinuous Control	—Unverified
Divide-Fuse-Conquer: Eliciting "Aha Moments" in Multi-Scenario Games	May 22, 2025	Reinforcement Learning (RL)	—Unverified
DIVINE: A Generative Adversarial Imitation Learning Framework for Knowledge Graph Reasoning	Nov 1, 2019	Imitation LearningKnowledge Graphs	—Unverified
DJ-MC: A Reinforcement-Learning Agent for Music Playlist Recommendation	Jan 9, 2014	Music RecommendationRecommendation Systems	—Unverified
DL-DRL: A double-level deep reinforcement learning approach for large-scale task scheduling of multi-UAV	Aug 4, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified
dm_control: Software and Tasks for Continuous Control	Jun 22, 2020	continuous-controlContinuous Control	—Unverified
DNN-Opt: An RL Inspired Optimization for Analog Circuit Sizing using Deep Neural Networks	Oct 1, 2021	Reinforcement Learning (RL)	—Unverified
Do Androids Dream of Electric Fences? Safety-Aware Reinforcement Learning with Latent Shielding	Dec 21, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
Do Artificial Reinforcement-Learning Agents Matter Morally?	Oct 30, 2014	reinforcement-learningReinforcement Learning	—Unverified
Do as I can, not as I get	Jun 17, 2023	Knowledge GraphsMulti-modal Knowledge Graph	—Unverified
Do Autonomous Agents Benefit from Hearing?	May 10, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
DOB-Net: Actively Rejecting Unknown Excessive Time-Varying Disturbances	Jul 10, 2019	PositionReinforcement Learning	—Unverified
Document-editing Assistants and Model-based Reinforcement Learning as a Path to Conversational AI	Aug 27, 2020	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Do Deep Reinforcement Learning Algorithms really Learn to Navigate?	Jan 1, 2018	Deep Reinforcement LearningNavigate	—Unverified
Does Explicit Prediction Matter in Deep Reinforcement Learning-Based Energy Management?	Aug 11, 2021	Decision MakingDeep Reinforcement Learning	—Unverified
How Does an Approximate Model Help in Reinforcement Learning?	Dec 6, 2019	reinforcement-learningReinforcement Learning	—Unverified
Does Sparsity Help in Learning Misspecified Linear Bandits?	Mar 29, 2023	reinforcement-learningReinforcement Learning (RL)	—Unverified
Domain Adaptation for Deep Reinforcement Learning in Visually Distinct Games	Jan 1, 2018	Deep Reinforcement LearningDomain Adaptation	—Unverified
Domain Adaptation for Offline Reinforcement Learning with Limited Samples	Aug 22, 2024	Domain AdaptationOffline RL	—Unverified
Domain Adaptation for Reinforcement Learning on the Atari	Dec 18, 2018	continuous-controlContinuous Control	—Unverified
Domain Adaptation of Reinforcement Learning Agents based on Network Service Proximity	Mar 2, 2023	Domain AdaptationManagement	—Unverified
DOMAIN ADAPTATION VIA DISTRIBUTION AND REPRESENTATION MATCHING: A CASE STUDY ON TRAINING DATA SELECTION VIA REINFORCEMENT LEARNING	Sep 27, 2018	Dependency ParsingDomain Adaptation	—Unverified
Domain Adapting Deep Reinforcement Learning for Real-world Speech Emotion Recognition	Jul 7, 2022	Cross-corpusDeep Reinforcement Learning	—Unverified
Domain Adaptive Fake News Detection via Reinforcement Learning	Feb 16, 2022	Fake News Detectionreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 404 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified