Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6626–6650 of 15113 papers

Title	Date	Tasks	Status
Dominion: A New Frontier for AI Research	May 10, 2024	Reinforcement Learning (RL)	—Unverified
Done Is Better than Perfect: Unlocking Efficient Reasoning by Structured Multi-Turn Decomposition	May 26, 2025	MathReinforcement Learning (RL)	—Unverified
Do No Harm: A Counterfactual Approach to Safe Reinforcement Learning	May 19, 2024	counterfactualFriction	—Unverified
Don't do it: Safer Reinforcement Learning With Rule-based Guidance	Dec 28, 2022	reinforcement-learningReinforcement Learning	—Unverified
Don't flatten, tokenize! Unlocking the key to SoftMoE's efficacy in deep RL	Oct 2, 2024	Reinforcement Learning (RL)	—Unverified
Don't Forget Your Teacher: A Corrective Reinforcement Learning Framework	May 30, 2019	reinforcement-learningReinforcement Learning	—Unverified
Don't Get Yourself into Trouble! Risk-aware Decision-Making for Autonomous Vehicles	Jun 8, 2021	Autonomous VehiclesDecision Making	—Unverified
Don't Start From Scratch: Leveraging Prior Data to Automate Robotic Reinforcement Learning	Jul 11, 2022	reinforcement-learningReinforcement Learning	—Unverified
Don't Until the Final Verb Wait: Reinforcement Learning for Simultaneous Machine Translation	Oct 1, 2014	Machine Translationreinforcement-learning	—Unverified
DOOM: A Novel Adversarial-DRL-Based Op-Code Level Metamorphic Malware Obfuscator for the Enhancement of IDS	Oct 16, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
DOP: Deep Optimistic Planning with Approximate Value Function Evaluation	Mar 22, 2018	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Do recent advancements in model-based deep reinforcement learning really improve data efficiency?	Sep 25, 2019	Atari Games 100kDeep Reinforcement Learning	—Unverified
Importance of using appropriate baselines for evaluation of data-efficiency in deep reinforcement learning for Atari	Mar 23, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Dot-to-Dot: Explainable Hierarchical Reinforcement Learning for Robotic Manipulation	Apr 14, 2019	Decision MakingDeep Reinforcement Learning	—Unverified
Double A3C: Deep Reinforcement Learning on OpenAI Gym Games	Mar 4, 2023	Atari GamesDeep Reinforcement Learning	—Unverified
Double Deep Q Networks for Sensor Management in Space Situational Awareness	May 27, 2022	Managementreinforcement-learning	—Unverified
Double Meta-Learning for Data Efficient Policy Optimization in Non-Stationary Environments	Nov 21, 2020	Meta-LearningMeta Reinforcement Learning	—Unverified
Double Q(σ) and Q(σ, λ): Unifying Reinforcement Learning Control Algorithms	Nov 5, 2017	Q-Learningreinforcement-learning	—Unverified
Double Q-learning	Dec 1, 2010	Q-Learningreinforcement-learning	—Unverified
Double Reinforcement Learning for Efficient and Robust Off-Policy Evaluation	Jan 1, 2020	Off-policy evaluationreinforcement-learning	—Unverified
Doubly Robust Off-Policy Actor-Critic Algorithms for Reinforcement Learning	Dec 11, 2019	continuous-controlContinuous Control	—Unverified
Doubly Robust Off-policy Value Evaluation for Reinforcement Learning	Nov 11, 2015	Decision Makingreinforcement-learning	—Unverified
DPO: A Differential and Pointwise Control Approach to Reinforcement Learning	Apr 24, 2024	Benchmarkingreinforcement-learning	—Unverified
DQLAP: Deep Q-Learning Recommender Algorithm with Update Policy for a Real Steam Turbine System	Oct 12, 2022	Deep LearningFault Detection	—Unverified
DQNAS: Neural Architecture Search using Reinforcement Learning	Jan 17, 2023	Face RecognitionNeural Architecture Search	—Unverified

Show:10 25 50

← PrevPage 266 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified