Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 9676–9700 of 15113 papers

Title	Date	Tasks	Status
Mission schedule of agile satellites based on Proximal Policy Optimization Algorithm	Jul 5, 2020	reinforcement-learningReinforcement Learning	—Unverified
Misspecification in Inverse Reinforcement Learning	Dec 6, 2022	reinforcement-learningReinforcement Learning	—Unverified
Mis-spoke or mis-lead: Achieving Robustness in Multi-Agent Communicative Reinforcement Learning	Aug 9, 2021	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Mitigate Bias in Face Recognition using Skewness-Aware Reinforcement Learning	Nov 25, 2019	Face RecognitionFairness	—Unverified
Mitigating Bias in Face Recognition Using Skewness-Aware Reinforcement Learning	Jun 1, 2020	Face RecognitionFairness	—Unverified
Mitigating Dimensionality in 2D Rectangle Packing Problem under Reinforcement Learning Schema	Sep 15, 2024	reinforcement-learningReinforcement Learning	—Unverified
Mitigating Multi-Stage Cascading Failure by Reinforcement Learning	Aug 19, 2019	reinforcement-learningReinforcement Learning	—Unverified
Mitigating Partial Observability in Adaptive Traffic Signal Control with Transformers	Sep 16, 2024	ManagementReinforcement Learning (RL)	—Unverified
Mitigating Planner Overfitting in Model-Based Reinforcement Learning	Dec 3, 2018	modelModel-based Reinforcement Learning	—Unverified
Mitigating Political Bias in Language Models Through Reinforced Calibration	Apr 30, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
Mitigating Reward Over-Optimization in RLHF via Behavior-Supported Regularization	Mar 23, 2025	Reinforcement Learning (RL)Response Generation	—Unverified
Mitigation of Adversarial Policy Imitation via Constrained Randomization of Policy (CRoP)	Sep 29, 2021	Deep Reinforcement LearningImitation Learning	—Unverified
Mitigation of Policy Manipulation Attacks on Deep Q-Networks with Parameter-Space Noise	Jun 4, 2018	Deep Reinforcement Learningreinforcement-learning	—Unverified
Mix and Match: Markov Chains & Mixing Times for Matching in Rideshare	Nov 30, 2019	reinforcement-learningReinforcement Learning	—Unverified
Mixed Cooperative-Competitive Communication Using Multi-Agent Reinforcement Learning	Oct 29, 2021	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Robust Policy Optimization in Continuous-time Mixed H_2/H_ Stochastic Control	Sep 9, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Mixed-Precision Conjugate Gradient Solvers with RL-Driven Precision Tuning	Apr 19, 2025	Computational EfficiencyQ-Learning	—Unverified
Mixed-Precision Neural Networks: A Survey	Aug 11, 2022	QuantizationReinforcement Learning (RL)	—Unverified
Mixed Reinforcement Learning with Additive Stochastic Uncertainty	Feb 28, 2020	reinforcement-learningReinforcement Learning	—Unverified
Mixing Human Demonstrations with Self-Exploration in Experience Replay for Deep Reinforcement Learning	Jul 14, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
MIX-MAB: Reinforcement Learning-based Resource Allocation Algorithm for LoRaWAN	Jun 7, 2022	reinforcement-learningReinforcement Learning	—Unverified
Mix & Match - Agent Curricula for Reinforcement Learning	Jul 1, 2018	reinforcement-learningReinforcement Learning	—Unverified
Mix&Match - Agent Curricula for Reinforcement Learning	Jun 5, 2018	reinforcement-learningReinforcement Learning	—Unverified
MIXRTs: Toward Interpretable Multi-Agent Reinforcement Learning via Mixing Recurrent Soft Decision Trees	Sep 15, 2022	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
MLComp: A Methodology for Machine Learning-based Performance Estimation and Adaptive Selection of Pareto-Optimal Compiler Optimization Sequences	Dec 9, 2020	Compiler Optimizationreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 388 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified