Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7826–7850 of 15113 papers

Title	Date	Tasks	Status
MP3: Movement Primitive-Based (Re-)Planning Policy	Jun 22, 2023	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified
MPC4RL -- A Software Package for Reinforcement Learning based on Model Predictive Control	Jan 27, 2025	Model Predictive ControlReinforcement Learning (RL)	—Unverified
MPC-based Reinforcement Learning for a Simplified Freight Mission of Autonomous Surface Vehicles	Jun 16, 2021	Model Predictive ControlPosition	—Unverified
MPC-based Reinforcement Learning for Economic Problems with Application to Battery Storage	Apr 6, 2021	Model Predictive Controlreinforcement-learning	—Unverified
MQES: Max-Q Entropy Search for Efficient Exploration in Continuous Reinforcement Learning	Jan 1, 2021	Efficient ExplorationMuJoCo	—Unverified
MQGrad: Reinforcement Learning of Gradient Quantization in Parameter Server	Apr 22, 2018	BIG-bench Machine LearningQuantization	—Unverified
MRAC-RL: A Framework for On-Line Policy Adaptation Under Parametric Model Uncertainty	Nov 20, 2020	reinforcement-learningReinforcement Learning	—Unverified
MSDF: A Deep Reinforcement Learning Framework for Service Function Chain Migration	Nov 12, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
MS-Ranker: Accumulating Evidence from Potentially Correct Candidates for Answer Selection	Oct 10, 2020	Answer SelectionReinforcement Learning (RL)	—Unverified
MSRL: Distributed Reinforcement Learning with Dataflow Fragments	Oct 3, 2022	CPUGPU	—Unverified
MSVIPER: Improved Policy Distillation for Reinforcement-Learning-Based Robot Navigation	Sep 19, 2022	Imitation Learningreinforcement-learning	—Unverified
MT^3: Scaling MLLM-based Text Image Machine Translation via Multi-Task Reinforcement Learning	May 26, 2025	document understandingMachine Translation	—Unverified
MTLight: Efficient Multi-Task Reinforcement Learning for Traffic Signal Control	Apr 1, 2024	Deep Reinforcement Learningreinforcement-learning	—Unverified
MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale	Apr 16, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
MULE: Multi-terrain and Unknown Load Adaptation for Effective Quadrupedal Locomotion	May 1, 2025	Model Predictive ControlReinforcement Learning (RL)	—Unverified
Multi-Advisor Reinforcement Learning	Apr 3, 2017	reinforcement-learningReinforcement Learning	—Unverified
Multi-Agent Actor-Critic with Generative Cooperative Policy Network	Oct 22, 2018	Multi-agent Reinforcement LearningReinforcement Learning	—Unverified
Multi-Agent Adversarial Attacks for Multi-Channel Communications	Jan 22, 2022	channel selectionReinforcement Learning (RL)	—Unverified
Multi-agent Assessment with QoS Enhancement for HD Map Updates in a Vehicular Network	Jul 31, 2024	Q-LearningReinforcement Learning (RL)	—Unverified
Asynchronous, Option-Based Multi-Agent Policy Gradient: A Conditional Reasoning Approach	Mar 29, 2022	Hierarchical Reinforcement LearningMulti-agent Reinforcement Learning	—Unverified
Multiagent-based Participatory Urban Simulation through Inverse Reinforcement Learning	Dec 21, 2017	reinforcement-learningReinforcement Learning	—Unverified
Multi-agent Battery Storage Management using MPC-based Reinforcement Learning	Jun 7, 2021	ManagementModel Predictive Control	—Unverified
Multi-agent Bayesian Deep Reinforcement Learning for Microgrid Energy Management under Communication Failures	Nov 22, 2021	Deep Reinforcement Learningenergy management	—Unverified
Multi-Agent Broad Reinforcement Learning for Intelligent Traffic Light Control	Mar 8, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified
CGIBNet: Bandwidth-constrained Communication with Graph Information Bottleneck in Multi-Agent Reinforcement Learning	Dec 20, 2021	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 314 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified