Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3776–3800 of 15113 papers

Title	Date	Tasks	Status	Score
Action Robust Reinforcement Learning and Applications in Continuous Control	Jan 26, 2019	continuous-controlContinuous Control	CodeCode Available	5
Fuzzy Logic Guided Reward Function Variation: An Oracle for Testing Reinforcement Learning Programs	Jun 28, 2024	Reinforcement Learning (RL)	CodeCode Available	5
Gap-Dependent Unsupervised Exploration for Reinforcement Learning	Aug 11, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	5
CityFlow: A Multi-Agent Reinforcement Learning Environment for Large Scale City Traffic Scenario	May 13, 2019	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	5
Explicitly Encouraging Low Fractional Dimensional Trajectories Via Reinforcement Learning	Dec 21, 2020	Dimensionality Reductionreinforcement-learning	CodeCode Available	5
Reinforcement Learning with Success Induced Task Prioritization	Dec 30, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	5
A Policy Gradient Primal-Dual Algorithm for Constrained MDPs with Uniform PAC Guarantees	Jan 31, 2024	Reinforcement Learning (RL)	CodeCode Available	5
Fully Parameterized Quantile Function for Distributional Reinforcement Learning	Nov 5, 2019	Atari GamesDistributional Reinforcement Learning	CodeCode Available	5
Circular Microalgae-Based Carbon Control for Net Zero	Feb 4, 2025	Reinforcement Learning (RL)	CodeCode Available	5
Deep reinforcement learning in World-Earth system models to discover sustainable management strategies	Aug 15, 2019	Deep Reinforcement LearningManagement	CodeCode Available	5
Deep Reinforcement Learning meets Graph Neural Networks: exploring a routing optimization use case	Oct 16, 2019	Decision MakingDeep Reinforcement Learning	CodeCode Available	5
A policy gradient approach for Finite Horizon Constrained Markov Decision Processes	Oct 10, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	5
Functional Acceleration for Policy Mirror Descent	Jul 23, 2024	Reinforcement Learning (RL)	CodeCode Available	5
Relational Deep Reinforcement Learning	Jun 5, 2018	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	5
Relational Graph Learning for Crowd Navigation	Sep 28, 2019	Deep Reinforcement LearningGraph Learning	CodeCode Available	5
From Two-Dimensional to Three-Dimensional Environment with Q-Learning: Modeling Autonomous Navigation with Reinforcement Learning and no Libraries	Mar 27, 2024	Autonomous NavigationDecision Making	CodeCode Available	5
Hierarchical Potential-based Reward Shaping from Task Specifications	Oct 6, 2021	Autonomous DrivingReinforcement Learning (RL)	CodeCode Available	5
Fully Convolutional Network with Multi-Step Reinforcement Learning for Image Processing	Nov 10, 2018	DenoisingImage Denoising	CodeCode Available	5
Generalized Adaptive Transfer Network: Enhancing Transfer Learning in Reinforcement Learning Across Domains	Jul 2, 2025	Atari GamesChatbot	CodeCode Available	5
APO: Enhancing Reasoning Ability of MLLMs via Asymmetric Policy Optimization	Jun 26, 2025	Multimodal ReasoningReinforcement Learning (RL)	CodeCode Available	5
Replacing Rewards with Examples: Example-Based Policy Search via Recursive Classification	Mar 23, 2021	General ClassificationReinforcement Learning (RL)	CodeCode Available	5
Imitating from auxiliary imperfect demonstrations via Adversarial Density Weighted Regression	May 28, 2024	Imitation LearningMuJoCo	CodeCode Available	5
Replication of Impedance Identification Experiments on a Reinforcement-Learning-Controlled Digital Twin of Human Elbows	Feb 5, 2024	Reinforcement Learning (RL)	CodeCode Available	5
From Credit Assignment to Entropy Regularization: Two New Algorithms for Neural Sequence Prediction	Apr 29, 2018	Predictionreinforcement-learning	CodeCode Available	5
From Gameplay to Symbolic Reasoning: Learning SAT Solver Heuristics in the Style of Alpha(Go) Zero	Feb 14, 2018	Decision MakingDeep Reinforcement Learning	CodeCode Available	5

Show:10 25 50

← PrevPage 152 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified