Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7626–7650 of 15113 papers

Title	Date	Tasks	Status
Mixed Cooperative-Competitive Communication Using Multi-Agent Reinforcement Learning	Oct 29, 2021	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Robust Policy Optimization in Continuous-time Mixed H_2/H_ Stochastic Control	Sep 9, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Mixed-Precision Conjugate Gradient Solvers with RL-Driven Precision Tuning	Apr 19, 2025	Computational EfficiencyQ-Learning	—Unverified
Mixed-Precision Neural Networks: A Survey	Aug 11, 2022	QuantizationReinforcement Learning (RL)	—Unverified
Mixed Reinforcement Learning with Additive Stochastic Uncertainty	Feb 28, 2020	reinforcement-learningReinforcement Learning	—Unverified
Mixing Human Demonstrations with Self-Exploration in Experience Replay for Deep Reinforcement Learning	Jul 14, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
MIX-MAB: Reinforcement Learning-based Resource Allocation Algorithm for LoRaWAN	Jun 7, 2022	reinforcement-learningReinforcement Learning	—Unverified
Mix & Match - Agent Curricula for Reinforcement Learning	Jul 1, 2018	reinforcement-learningReinforcement Learning	—Unverified
Mix&Match - Agent Curricula for Reinforcement Learning	Jun 5, 2018	reinforcement-learningReinforcement Learning	—Unverified
MIXRTs: Toward Interpretable Multi-Agent Reinforcement Learning via Mixing Recurrent Soft Decision Trees	Sep 15, 2022	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
MLComp: A Methodology for Machine Learning-based Performance Estimation and Adaptive Selection of Pareto-Optimal Compiler Optimization Sequences	Dec 9, 2020	Compiler Optimizationreinforcement-learning	—Unverified
MLGOPerf: An ML Guided Inliner to Optimize Performance	Jul 18, 2022	reinforcement-learningReinforcement Learning	—Unverified
MLGym: A New Framework and Benchmark for Advancing AI Research Agents	Feb 20, 2025	Reinforcement Learning (RL)	—Unverified
MMD-MIX: Value Function Factorisation with Maximum Mean Discrepancy for Cooperative Multi-Agent Reinforcement Learning	Jun 22, 2021	Distributional Reinforcement LearningMulti-agent Reinforcement Learning	—Unverified
MMedAgent-RL: Optimizing Multi-Agent Collaboration for Multimodal Medical Reasoning	May 31, 2025	DiagnosticReinforcement Learning (RL)	—Unverified
MOBA: Multi-teacher Model Based Reinforcement Learning	Sep 29, 2021	Decision MakingKnowledge Distillation	—Unverified
Mobile Cellular-Connected UAVs: Reinforcement Learning for Sky Limits	Sep 21, 2020	reinforcement-learningReinforcement Learning	—Unverified
Mobile Networks for Computer Go	Aug 23, 2020	Deep Reinforcement LearningGame of Go	—Unverified
Mobile Robot Planner with Low-cost Cameras Using Deep Reinforcement Learning	Dec 21, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Mobile Robots Autonomous Exploration with Reinforcement Learning	Dec 14, 2020	reinforcement-learningReinforcement Learning	—Unverified
Mobile Robots Exploration via Deep Reinforcement Learning	Dec 14, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Mobile-TeleVision: Predictive Motion Priors for Humanoid Whole-Body Control	Dec 10, 2024	motion retargetingReinforcement Learning (RL)	—Unverified
Mobility Management for Cellular-Connected UAVs: A Learning-Based Approach	Mar 10, 2020	ManagementReinforcement Learning (RL)	—Unverified
Modality-Buffet for Real-Time Object Detection	Nov 17, 2020	Decision MakingObject	—Unverified
Model-agnostic Counterfactual Synthesis Policy for Interactive Recommendation	Apr 1, 2022	counterfactualInteractive Recommendation	—Unverified

Show:10 25 50

← PrevPage 306 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified