Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3201–3225 of 15113 papers

Title	Date	Tasks	Status	Score
Hindsight Credit Assignment	Dec 5, 2019	reinforcement-learningReinforcement Learning	CodeCode Available	5
Hindsight Foresight Relabeling for Meta-Reinforcement Learning	Sep 18, 2021	Meta Reinforcement Learningreinforcement-learning	CodeCode Available	5
DARLR: Dual-Agent Offline Reinforcement Learning for Recommender Systems with Dynamic Reward	May 12, 2025	Recommendation SystemsReinforcement Learning (RL)	CodeCode Available	5
Active Policy Improvement from Multiple Black-box Oracles	Jun 17, 2023	Imitation LearningReinforcement Learning (RL)	CodeCode Available	5
Confidence Aware Inverse Constrained Reinforcement Learning	Jun 24, 2024	reinforcement-learningReinforcement Learning	CodeCode Available	5
High-Throughput Distributed Reinforcement Learning via Adaptive Policy Synchronization	Jul 15, 2025	reinforcement-learningReinforcement Learning	CodeCode Available	5
Highway Graph to Accelerate Reinforcement Learning	May 20, 2024	reinforcement-learningReinforcement Learning	CodeCode Available	5
Hindsight Learning for MDPs with Exogenous Inputs	Jul 13, 2022	counterfactualDecision Making	CodeCode Available	5
Hierarchical Reinforcement Learning with Advantage-Based Auxiliary Rewards	Oct 10, 2019	Hierarchical Reinforcement LearningMuJoCo	CodeCode Available	5
Hierarchical Reinforcement Learning with the MAXQ Value Function Decomposition	May 21, 1999	Hierarchical Reinforcement LearningQ-Learning	CodeCode Available	5
Conditionally Optimistic Exploration for Cooperative Deep Multi-Agent Reinforcement Learning	Mar 16, 2023	Efficient ExplorationMulti-agent Reinforcement Learning	CodeCode Available	5
Meta-Inverse Reinforcement Learning with Probabilistic Context Variables	Sep 20, 2019	continuous-controlContinuous Control	CodeCode Available	5
Adversarial Skill Networks: Unsupervised Robot Skill Learning from Video	Oct 21, 2019	continuous-controlContinuous Control	CodeCode Available	5
Data driven approach towards more efficient Newton-Raphson power flow calculation for distribution grids	Apr 15, 2025	Reinforcement Learning (RL)	CodeCode Available	5
Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement Learning	Jun 29, 2022	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	5
Hierarchical Reinforcement Learning for Zero-shot Generalization with Subtask Dependencies	Jul 19, 2018	Hierarchical Reinforcement LearningNetwork Embedding	CodeCode Available	5
Meta-Reinforcement Learning in Broad and Non-Parametric Environments	Aug 8, 2021	Meta Reinforcement Learningreinforcement-learning	CodeCode Available	5
Hierarchical Reinforcement Learning via Advantage-Weighted Information Maximization	Jan 5, 2019	continuous-controlContinuous Control	CodeCode Available	5
Meta-learning Convolutional Neural Architectures for Multi-target Concrete Defect Classification with the COncrete DEfect BRidge IMage Dataset	Apr 2, 2019	General ClassificationMeta-Learning	CodeCode Available	5
Meta Reinforcement Learning with Finite Training Tasks -- a Density Estimation Approach	Jun 21, 2022	Density EstimationDimensionality Reduction	CodeCode Available	5
Conditional Computation in Neural Networks for faster models	Nov 19, 2015	reinforcement-learningReinforcement Learning	CodeCode Available	5
Hierarchical Reinforcement Learning with Optimal Level Synchronization based on a Deep Generative Model	Jul 17, 2021	Hierarchical Reinforcement Learningreinforcement-learning	CodeCode Available	5
Hierarchical Text Generation and Planning for Strategic Dialogue	Dec 15, 2017	Decision Makingreinforcement-learning	CodeCode Available	5
Hindsight policy gradients	Nov 16, 2017	Policy Gradient Methodsreinforcement-learning	CodeCode Available	5
How to Make Deep RL Work in Practice	Oct 25, 2020	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	5

Show:10 25 50

← PrevPage 129 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified