Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8026–8050 of 15113 papers

Title	Date	Tasks	Status
MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven Reinforcement Learning	Jul 15, 2021	Meta-Learningreinforcement-learning	—Unverified
MURO: Deployment Constrained Reinforcement Learning with Model-based Uncertainty Regularized Batch Optimization	Sep 29, 2021	Recommendation Systemsreinforcement-learning	—Unverified
MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch Optimization for Deployment Constrained Reinforcement Learning	Feb 23, 2021	Reinforcement Learning (RL)Uncertainty Quantification	—Unverified
MUST: A Framework for Training Task-oriented Dialogue Systems with Multiple User SimulaTors	Jan 16, 2022	Reinforcement Learning (RL)Task-Oriented Dialogue Systems	—Unverified
Muti-Agent Proximal Policy Optimization For Data Freshness in UAV-assisted Networks	Mar 15, 2023	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Mutual Enhancement of Large Language and Reinforcement Learning Models through Bi-Directional Feedback Mechanisms: A Case Study	Jan 12, 2024	Efficient ExplorationReinforcement Learning (RL)	—Unverified
Mutual Information as Intrinsic Reward of Reinforcement Learning Agents for On-demand Ride Pooling	Dec 23, 2023	Reinforcement Learning (RL)	—Unverified
Mutual Information-based State-Control for Intrinsically Motivated Reinforcement Learning	Feb 5, 2020	reinforcement-learningReinforcement Learning	—Unverified
Mutual-Information Regularization in Markov Decision Processes and Actor-Critic Learning	Sep 11, 2019	MuJoCoQ-Learning	—Unverified
Mutual Reinforcement Learning	Jul 15, 2019	reinforcement-learningReinforcement Learning	—Unverified
M-Walk: Learning to Walk over Graphs using Monte Carlo Tree Search	Feb 12, 2018	Knowledge Base CompletionLink Prediction	—Unverified
N2N Learning: Network to Network Compression via Policy Gradient Reinforcement Learning	Sep 18, 2017	Model Compressionreinforcement-learning	—Unverified
NADPEx: An on-policy temporally consistent exploration method for deep reinforcement learning	Dec 21, 2018	continuous-controlContinuous Control	—Unverified
NANCY: Neural Adaptive Network Coding methodologY for video distribution over wireless networks	Aug 21, 2020	reinforcement-learningReinforcement Learning (RL)	—Unverified
Resource Allocation in Disaggregated Data Centre Systems with Reinforcement Learning	Jun 4, 2021	CPUreinforcement-learning	—Unverified
NaRLE: Natural Language Models using Reinforcement Learning with Emotion Feedback	Oct 5, 2021	Deep Reinforcement Learningintent-classification	—Unverified
Natural Actor-Critic Converges Globally for Hierarchical Linear Quadratic Regulator	Dec 14, 2019	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Natural Gradient Deep Q-learning	Mar 20, 2018	Deep Reinforcement LearningHyperparameter Optimization	—Unverified
Natural Language-conditioned Reinforcement Learning with Inside-out Task Language Development and Translation	Feb 18, 2023	Instruction FollowingReinforcement Learning (RL)	—Unverified
Natural Language Generation as Planning under Uncertainty Using Reinforcement Learning	Jun 15, 2016	reinforcement-learningReinforcement Learning	—Unverified
Natural Language Person Search Using Deep Reinforcement Learning	Sep 2, 2018	Deep Reinforcement Learningobject-detection	—Unverified
Natural Language Reinforcement Learning	Feb 11, 2024	Decision Makingreinforcement-learning	—Unverified
Language is Power: Representing States Using Natural Language in Reinforcement Learning	Oct 2, 2019	reinforcement-learningReinforcement Learning	—Unverified
Natural Policy Gradient and Actor Critic Methods for Constrained Multi-Task Reinforcement Learning	May 3, 2024	Reinforcement Learning (RL)	—Unverified
Natural Policy Gradient for Average Reward Non-Stationary RL	Apr 23, 2025	Reinforcement Learning (RL)	—Unverified

Show:10 25 50

← PrevPage 322 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified