Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 9876–9900 of 15113 papers

Title	Date	Tasks	Status
Development and Validation of Heparin Dosing Policies Using an Offline Reinforcement Learning Algorithm	Sep 24, 2024	Offline RLOff-policy evaluation	—Unverified
Development of A Stochastic Traffic Environment with Generative Time-Series Models for Improving Generalization Capabilities of Autonomous Driving Agents	Jun 10, 2020	Autonomous DrivingReinforcement Learning (RL)	—Unverified
Development of collective behavior in newborn artificial agents	Nov 6, 2021	Deep Reinforcement LearningObject Recognition	—Unverified
DexPoint: Generalizable Point Cloud Reinforcement Learning for Sim-to-Real Dexterous Manipulation	Nov 17, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Dexterous Legged Locomotion in Confined 3D Spaces with Reinforcement Learning	Mar 6, 2024	Deep Reinforcement LearningNavigate	—Unverified
Dexterous Manipulation from Images: Autonomous Real-World RL via Substep Guidance	Dec 19, 2022	reinforcement-learningReinforcement Learning	—Unverified
Dexterous Manipulation through Imitation Learning: A Survey	Apr 4, 2025	Imitation LearningReinforcement Learning (RL)	—Unverified
Dexterous Manipulation with Deep Reinforcement Learning: Efficient, General, and Low-Cost	Oct 14, 2018	Contact-rich ManipulationDeep Reinforcement Learning	—Unverified
DGRO: Enhancing LLM Reasoning via Exploration-Exploitation Control and Reward Variance Management	May 19, 2025	ManagementReinforcement Learning (RL)	—Unverified
Diagnosing Reinforcement Learning for Traffic Signal Control	May 12, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
Dialog Action-Aware Transformer for Dialog Policy Learning	Sep 5, 2023	Language ModelingLanguage Modelling	—Unverified
Dialogue Evaluation with Offline Reinforcement Learning	Sep 2, 2022	Dialogue EvaluationOffline RL	—Unverified
Dialogue manager domain adaptation using Gaussian process reinforcement learning	Sep 9, 2016	Domain AdaptationGaussian Processes	—Unverified
Dialogue Shaping: Empowering Agents through NPC Interaction	Jul 28, 2023	Knowledge Graphsreinforcement-learning	—Unverified
DiBB: Distributing Black-Box Optimization	Sep 29, 2021	Problem DecompositionReinforcement Learning (RL)	—Unverified
Dichotomy of Control: Separating What You Can Control from What You Cannot	Oct 24, 2022	Reinforcement Learning (RL)	—Unverified
Diff-DAC: Distributed Actor-Critic for Average Multitask Deep Reinforcement Learning	Oct 28, 2017	Deep Reinforcement Learningreinforcement-learning	—Unverified
Difference of Convex Functions Programming Applied to Control with Expert Data	Jun 3, 2016	General Classificationreinforcement-learning	—Unverified
Difference of Convex Functions Programming for Reinforcement Learning	Dec 1, 2014	reinforcement-learningReinforcement Learning	—Unverified
Difference Rewards Policy Gradients	Dec 21, 2020	counterfactualMulti-agent Reinforcement Learning	—Unverified
Differentiable Arbitrating in Zero-sum Markov Games	Feb 20, 2023	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Differentiable Discrete Event Simulation for Queuing Network Control	Sep 5, 2024	GPUReinforcement Learning (RL)	—Unverified
Differentiable Logic Machines	Feb 23, 2021	Decision MakingInductive logic programming	—Unverified
Differentiable Physics Models for Real-world Offline Model-based Reinforcement Learning	Nov 3, 2020	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Differentiable Quantum Architecture Search in Asynchronous Quantum Reinforcement Learning	Jul 25, 2024	Decision Makingreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 396 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified