Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10101–10125 of 15113 papers

Title	Date	Tasks	Status
Domain Adversarial Reinforcement Learning	Feb 14, 2021	reinforcement-learningReinforcement Learning	—Unverified
Domain Adversarial Reinforcement Learning for Partial Domain Adaptation	May 10, 2019	Domain AdaptationPartial Domain Adaptation	—Unverified
Domain Generalization for Robust Model-Based Offline Reinforcement Learning	Nov 27, 2022	Domain GeneralizationOffline RL	—Unverified
Domain-Independent Optimistic Initialization for Reinforcement Learning	Oct 16, 2014	reinforcement-learningReinforcement Learning	—Unverified
Domain Knowledge-Based Automated Analog Circuit Design with Deep Reinforcement Learning	Feb 26, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified
Domain Knowledge Integration By Gradient Matching For Sample-Efficient Reinforcement Learning	May 28, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
DOMAIN: MilDly COnservative Model-BAsed OfflINe Reinforcement Learning	Sep 16, 2023	D4RLmodel	—Unverified
Domain Randomization for Robust, Affordable and Effective Closed-loop Control of Soft Robots	Mar 7, 2023	reinforcement-learningReinforcement Learning	—Unverified
Domain Randomization via Entropy Maximization	Nov 3, 2023	DiversityReinforcement Learning (RL)	—Unverified
Dominion: A New Frontier for AI Research	May 10, 2024	Reinforcement Learning (RL)	—Unverified
Done Is Better than Perfect: Unlocking Efficient Reasoning by Structured Multi-Turn Decomposition	May 26, 2025	MathReinforcement Learning (RL)	—Unverified
Do No Harm: A Counterfactual Approach to Safe Reinforcement Learning	May 19, 2024	counterfactualFriction	—Unverified
Don't do it: Safer Reinforcement Learning With Rule-based Guidance	Dec 28, 2022	reinforcement-learningReinforcement Learning	—Unverified
Don't flatten, tokenize! Unlocking the key to SoftMoE's efficacy in deep RL	Oct 2, 2024	Reinforcement Learning (RL)	—Unverified
Don't Forget Your Teacher: A Corrective Reinforcement Learning Framework	May 30, 2019	reinforcement-learningReinforcement Learning	—Unverified
Don't Get Yourself into Trouble! Risk-aware Decision-Making for Autonomous Vehicles	Jun 8, 2021	Autonomous VehiclesDecision Making	—Unverified
Don't Start From Scratch: Leveraging Prior Data to Automate Robotic Reinforcement Learning	Jul 11, 2022	reinforcement-learningReinforcement Learning	—Unverified
Don't Until the Final Verb Wait: Reinforcement Learning for Simultaneous Machine Translation	Oct 1, 2014	Machine Translationreinforcement-learning	—Unverified
DOOM: A Novel Adversarial-DRL-Based Op-Code Level Metamorphic Malware Obfuscator for the Enhancement of IDS	Oct 16, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
DOP: Deep Optimistic Planning with Approximate Value Function Evaluation	Mar 22, 2018	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Do recent advancements in model-based deep reinforcement learning really improve data efficiency?	Sep 25, 2019	Atari Games 100kDeep Reinforcement Learning	—Unverified
Importance of using appropriate baselines for evaluation of data-efficiency in deep reinforcement learning for Atari	Mar 23, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Dot-to-Dot: Explainable Hierarchical Reinforcement Learning for Robotic Manipulation	Apr 14, 2019	Decision MakingDeep Reinforcement Learning	—Unverified
Double A3C: Deep Reinforcement Learning on OpenAI Gym Games	Mar 4, 2023	Atari GamesDeep Reinforcement Learning	—Unverified
Double Deep Q Networks for Sensor Management in Space Situational Awareness	May 27, 2022	Managementreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 405 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified