Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5101–5125 of 15113 papers

Title	Date	Tasks	Status
Holistic Deep-Reinforcement-Learning-based Training of Autonomous Navigation Systems	Feb 6, 2023	Autonomous NavigationDeep Reinforcement Learning	—Unverified
HoME: a Household Multimodal Environment	Nov 29, 2017	OpenAI Gymreinforcement-learning	—Unverified
Homotopy Based Reinforcement Learning with Maximum Entropy for Autonomous Air Combat	Dec 1, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
Hope For The Best But Prepare For The Worst: Cautious Adaptation In RL Agents	Sep 25, 2019	Domain AdaptationMeta Reinforcement Learning	—Unverified
HOPE: Human-Centric Off-Policy Evaluation for E-Learning and Healthcare	Feb 18, 2023	Off-policy evaluationReinforcement Learning (RL)	—Unverified
Horizon: Facebook's Open Source Applied Reinforcement Learning Platform	Nov 1, 2018	counterfactualreinforcement-learning	—Unverified
Horizon-Free Regret for Linear Markov Decision Processes	Mar 15, 2024	LEMMAReinforcement Learning (RL)	—Unverified
Horizon-Free and Variance-Dependent Reinforcement Learning for Latent Markov Decision Processes	Oct 20, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Horizon-Free Reinforcement Learning in Polynomial Time: the Power of Stationary Policies	Mar 24, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Horizon-free Reinforcement Learning in Adversarial Linear Mixture MDPs	May 15, 2023	Open-Ended Question Answeringreinforcement-learning	—Unverified
Hovering Flight of Soft-Actuated Insect-Scale Micro Aerial Vehicles using Deep Reinforcement Learning	Feb 17, 2025	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified
How an Electrical Engineer Became an Artificial Intelligence Researcher, a Multiphase Active Contours Analysis	Mar 29, 2018	Electrical EngineeringInterpretable Machine Learning	—Unverified
How Can Creativity Occur in Multi-Agent Systems?	Nov 29, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
How Difficulty-Aware Staged Reinforcement Learning Enhances LLMs' Reasoning Capabilities: A Preliminary Experimental Study	Apr 1, 2025	Code GenerationMath	—Unverified
How does AI play football? An analysis of RL and real-world football strategies	Nov 24, 2021	Reinforcement Learning (RL)	—Unverified
How does the structure embedded in learning policy affect learning quadruped locomotion?	Aug 29, 2020	Reinforcement Learning (RL)	—Unverified
How Does Return Distribution in Distributional Reinforcement Learning Help Optimization?	Sep 29, 2022	Distributional Reinforcement Learningreinforcement-learning	—Unverified
How do Offline Measures for Exploration in Reinforcement Learning behave?	Oct 29, 2020	reinforcement-learningReinforcement Learning	—Unverified
How hard is my MDP?" The distribution-norm to the rescue"	Dec 1, 2014	Reinforcement LearningReinforcement Learning (RL)	—Unverified
How many weights are enough : can tensor factorization learn efficient policies ?	Sep 25, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning	May 30, 2025	ARCReinforcement Learning (RL)	—Unverified
How Much Do Unstated Problem Constraints Limit Deep Robotic Reinforcement Learning?	Sep 20, 2019	continuous-controlContinuous Control	—Unverified
How the level sampling process impacts zero-shot generalisation in deep reinforcement learning	Oct 5, 2023	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified
How to Combine Tree-Search Methods in Reinforcement Learning	Sep 6, 2018	reinforcement-learningReinforcement Learning	—Unverified
How to Discount Deep Reinforcement Learning: Towards New Dynamic Strategies	Dec 7, 2015	Deep Reinforcement Learningreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 205 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified