Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 9701–9725 of 15113 papers

Title	Date	Tasks	Status
MLGOPerf: An ML Guided Inliner to Optimize Performance	Jul 18, 2022	reinforcement-learningReinforcement Learning	—Unverified
MLGym: A New Framework and Benchmark for Advancing AI Research Agents	Feb 20, 2025	Reinforcement Learning (RL)	—Unverified
MMD-MIX: Value Function Factorisation with Maximum Mean Discrepancy for Cooperative Multi-Agent Reinforcement Learning	Jun 22, 2021	Distributional Reinforcement LearningMulti-agent Reinforcement Learning	—Unverified
MMedAgent-RL: Optimizing Multi-Agent Collaboration for Multimodal Medical Reasoning	May 31, 2025	DiagnosticReinforcement Learning (RL)	—Unverified
MOBA: Multi-teacher Model Based Reinforcement Learning	Sep 29, 2021	Decision MakingKnowledge Distillation	—Unverified
Mobile Cellular-Connected UAVs: Reinforcement Learning for Sky Limits	Sep 21, 2020	reinforcement-learningReinforcement Learning	—Unverified
Mobile Networks for Computer Go	Aug 23, 2020	Deep Reinforcement LearningGame of Go	—Unverified
Mobile Robot Planner with Low-cost Cameras Using Deep Reinforcement Learning	Dec 21, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Mobile Robots Autonomous Exploration with Reinforcement Learning	Dec 14, 2020	reinforcement-learningReinforcement Learning	—Unverified
Mobile Robots Exploration via Deep Reinforcement Learning	Dec 14, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Mobile-TeleVision: Predictive Motion Priors for Humanoid Whole-Body Control	Dec 10, 2024	motion retargetingReinforcement Learning (RL)	—Unverified
Mobility Management for Cellular-Connected UAVs: A Learning-Based Approach	Mar 10, 2020	ManagementReinforcement Learning (RL)	—Unverified
Modality-Buffet for Real-Time Object Detection	Nov 17, 2020	Decision MakingObject	—Unverified
Model-agnostic Counterfactual Synthesis Policy for Interactive Recommendation	Apr 1, 2022	counterfactualInteractive Recommendation	—Unverified
Model-Agnostic Learning to Meta-Learn	Dec 4, 2020	image-classificationImage Classification	—Unverified
Model-aided Deep Reinforcement Learning for Sample-efficient UAV Trajectory Design in IoT Networks	Apr 21, 2021	Deep Reinforcement LearningQ-Learning	—Unverified
Model-Based Actor-Critic with Chance Constraint for Stochastic System	Dec 19, 2020	Model Predictive ControlReinforcement Learning (RL)	—Unverified
Model-based adaptation for sample efficient transfer in reinforcement learning control of parameter-varying systems	May 20, 2023	Model Predictive Controlreinforcement-learning	—Unverified
Model-based Bayesian Reinforcement Learning for Dialogue Management	Apr 5, 2013	Bayesian InferenceDialogue Management	—Unverified
Model-based Chance-Constrained Reinforcement Learning via Separated Proportional-Integral Lagrangian	Aug 26, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
Model-based Deep Reinforcement Learning for Dynamic Portfolio Optimization	Jan 25, 2019	Data AugmentationDeep Reinforcement Learning	—Unverified
Deep Model-Based Reinforcement Learning for High-Dimensional Problems, a Survey	Aug 11, 2020	Decision MakingDeep Reinforcement Learning	—Unverified
Model-based Dynamic Shielding for Safe and Efficient Multi-Agent Reinforcement Learning	Apr 13, 2023	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Model-Based Episodic Memory Induces Dynamic Hybrid Controls	Nov 3, 2021	modelreinforcement-learning	—Unverified
Model-based imitation learning from state trajectories	Jan 1, 2018	Imitation Learningmodel	—Unverified

Show:10 25 50

← PrevPage 389 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified