Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8151–8175 of 15113 papers

Title	Date	Tasks	Status
Parameter Sharing Reinforcement Learning Architecture for Multi Agent Driving Behaviors	Nov 17, 2018	reinforcement-learningReinforcement Learning	—Unverified
Parameter Sharing with Network Pruning for Scalable Multi-Agent Deep Reinforcement Learning	Mar 2, 2023	Deep Reinforcement LearningMulti-agent Reinforcement Learning	—Unverified
Paraphrase Generation with Deep Reinforcement Learning	Nov 1, 2017	Deep Reinforcement LearningParaphrase Generation	—Unverified
Parental Guidance: Efficient Lifelong Learning through Evolutionary Distillation	Mar 24, 2025	Continual LearningDiversity	—Unverified
Parenting: Safe Reinforcement Learning from Human Input	Feb 18, 2019	reinforcement-learningReinforcement Learning	—Unverified
Pareto Deterministic Policy Gradients and Its Application in 5G Massive MIMO Networks	Dec 2, 2020	Reinforcement Learning (RL)	—Unverified
Pareto Frontier Approximation Network (PA-Net) to Solve Bi-objective TSP	Mar 2, 2022	Reinforcement Learning (RL)Scheduling	—Unverified
Pareto Policy Adaptation	Sep 29, 2021	Multi-Objective Reinforcement Learningreinforcement-learning	—Unverified
Pareto Policy Pool for Model-based Offline Reinforcement Learning	Sep 29, 2021	D4RLOffline RL	—Unverified
Pareto Set Learning for Multi-Objective Reinforcement Learning	Jan 12, 2025	Decision MakingMulti-Objective Reinforcement Learning	—Unverified
ParMod: A Parallel and Modular Framework for Learning Non-Markovian Tasks	Dec 17, 2024	NMTReinforcement Learning (RL)	—Unverified
Parrot: Data-Driven Behavioral Priors for Reinforcement Learning	Nov 19, 2020	Decision Makingreinforcement-learning	—Unverified
Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to-Image Generation	Jan 11, 2024	Image GenerationReinforcement Learning (RL)	—Unverified
Parsing Natural Language into Propositional and First-Order Logic with Dual Reinforcement Learning	Jan 16, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Parsing Natural Language into Propositional and First-Order Logic with Dual Reinforcement Learning	Oct 1, 2022	Natural Language Inferencereinforcement-learning	—Unverified
Part-Activated Deep Reinforcement Learning for Action Prediction	Sep 1, 2018	Deep Reinforcement LearningPrediction	—Unverified
Partial End-to-end Reinforcement Learning for Robustness Against Modelling Error in Autonomous Racing	Dec 11, 2023	Autonomous RacingImitation Learning	—Unverified
Partially Connected Automated Vehicle Cooperative Control Strategy with a Deep Reinforcement Learning Approach	Dec 3, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Partially Detected Intelligent Traffic Signal Control: Environmental Adaptation	Oct 23, 2019	Q-LearningReinforcement Learning	—Unverified
Partially Observable Multi-Agent Reinforcement Learning with Information Sharing	Aug 16, 2023	Computational EfficiencyMulti-agent Reinforcement Learning	—Unverified
Partially Observable RL with B-Stability: Unified Structural Condition and Sharp Sample-Efficient Algorithms	Sep 29, 2022	Reinforcement Learning (RL)	—Unverified
Partial Off-Policy Learning: Balance Accuracy and Diversity for Human-Oriented Image Captioning	Jan 1, 2021	DiversityGenerative Adversarial Network	—Unverified
Partial Policy-based Reinforcement Learning for Anatomical Landmark Localization in 3D Medical Images	Jul 9, 2018	reinforcement-learningReinforcement Learning	—Unverified
Partial Simulation for Imitation Learning	Sep 25, 2019	Imitation LearningReinforcement Learning (RL)	—Unverified
Particle Based Stochastic Policy Optimization	Sep 29, 2021	Deep Reinforcement LearningMuJoCo Games	—Unverified

Show:10 25 50

← PrevPage 327 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified