Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7601–7625 of 15113 papers

Title	Date	Tasks	Status
Minimizing Communication while Maximizing Performance in Multi-Agent Reinforcement Learning	Jun 15, 2021	Multi-agent Reinforcement LearningMulti-Task Learning	—Unverified
Minimizing Human Assistance: Augmenting a Single Demonstration for Deep Reinforcement Learning	Sep 22, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified
Minimizing Safety Interference for Safe and Comfortable Automated Driving with Distributional Reinforcement Learning	Jul 15, 2021	Autonomous VehiclesDistributional Reinforcement Learning	—Unverified
Minimizing the Outage Probability in a Markov Decision Process	Feb 28, 2023	Q-Learningreinforcement-learning	—Unverified
Minimum Description Length Control	Jul 17, 2022	Bayesian Inferencecontinuous-control	—Unverified
Minimum Description Length Skills for Accelerated Reinforcement Learning	Mar 9, 2021	reinforcement-learningReinforcement Learning	—Unverified
Minimum information divergence of Q-functions for dynamic treatment resumes	Nov 16, 2022	reinforcement-learningReinforcement Learning	—Unverified
Mining Evidences for Concept Stock Recommendation	Jun 1, 2018	Deep Reinforcement LearningInformation Retrieval	—Unverified
Mint: Matrix-Interleaving for Multi-Task Learning	Sep 25, 2019	Multi-Task Learningreinforcement-learning	—Unverified
APPTeK: Agent-Based Predicate Prediction in Temporal Knowledge Graphs	Oct 27, 2021	Knowledge GraphsPrediction	—Unverified
Mirror Descent Actor Critic via Bounded Advantage Learning	Feb 6, 2025	Reinforcement Learning (RL)	—Unverified
Mission schedule of agile satellites based on Proximal Policy Optimization Algorithm	Jul 5, 2020	reinforcement-learningReinforcement Learning	—Unverified
Misspecification in Inverse Reinforcement Learning	Dec 6, 2022	reinforcement-learningReinforcement Learning	—Unverified
Mis-spoke or mis-lead: Achieving Robustness in Multi-Agent Communicative Reinforcement Learning	Aug 9, 2021	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Mitigate Bias in Face Recognition using Skewness-Aware Reinforcement Learning	Nov 25, 2019	Face RecognitionFairness	—Unverified
Mitigating Bias in Face Recognition Using Skewness-Aware Reinforcement Learning	Jun 1, 2020	Face RecognitionFairness	—Unverified
Mitigating Dimensionality in 2D Rectangle Packing Problem under Reinforcement Learning Schema	Sep 15, 2024	reinforcement-learningReinforcement Learning	—Unverified
Mitigating Multi-Stage Cascading Failure by Reinforcement Learning	Aug 19, 2019	reinforcement-learningReinforcement Learning	—Unverified
Mitigating Partial Observability in Adaptive Traffic Signal Control with Transformers	Sep 16, 2024	ManagementReinforcement Learning (RL)	—Unverified
Mitigating Planner Overfitting in Model-Based Reinforcement Learning	Dec 3, 2018	modelModel-based Reinforcement Learning	—Unverified
Mitigating Political Bias in Language Models Through Reinforced Calibration	Apr 30, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
Mitigating Reward Over-Optimization in RLHF via Behavior-Supported Regularization	Mar 23, 2025	Reinforcement Learning (RL)Response Generation	—Unverified
Mitigation of Adversarial Policy Imitation via Constrained Randomization of Policy (CRoP)	Sep 29, 2021	Deep Reinforcement LearningImitation Learning	—Unverified
Mitigation of Policy Manipulation Attacks on Deep Q-Networks with Parameter-Space Noise	Jun 4, 2018	Deep Reinforcement Learningreinforcement-learning	—Unverified
Mix and Match: Markov Chains & Mixing Times for Matching in Rideshare	Nov 30, 2019	reinforcement-learningReinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 305 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified