Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5501–5525 of 15113 papers

Title	Date	Tasks	Status
Interactive Reinforcement Learning for Feature Selection with Decision Tree in the Loop	Oct 2, 2020	Feature Importancefeature selection	—Unverified
Interactive Reinforcement Learning for Object Grounding via Self-Talking	Dec 2, 2017	Objectreinforcement-learning	—Unverified
Interactive Reinforcement Learning for Table Balancing Robot	Aug 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Interactive Reinforcement Learning with Dynamic Reuse of Prior Knowledge from Human/Agent's Demonstration	May 11, 2018	reinforcement-learningReinforcement Learning	—Unverified
Interactive Search Based on Deep Reinforcement Learning	Dec 9, 2020	ClusteringDecision Making	—Unverified
Interactive Spoken Content Retrieval by Deep Reinforcement Learning	Sep 16, 2016	Deep Reinforcement LearningQ-Learning	—Unverified
Interactive Teaching Algorithms for Inverse Reinforcement Learning	May 28, 2019	reinforcement-learningReinforcement Learning	—Unverified
Interactive Video Corpus Moment Retrieval using Reinforcement Learning	Feb 19, 2023	Moment Retrievalreinforcement-learning	—Unverified
Intercepting Unauthorized Aerial Robots in Controlled Airspace Using Reinforcement Learning	Jul 9, 2024	reinforcement-learningReinforcement Learning	—Unverified
Interleaved Reasoning for Large Language Models via Reinforcement Learning	May 26, 2025	Logical ReasoningMath	—Unverified
Internal Model from Observations for Reward Shaping	Jun 2, 2018	modelreinforcement-learning	—Unverified
Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient Estimation for Deep Reinforcement Learning	Jun 1, 2017	continuous-controlContinuous Control	—Unverified
Interpretability via Model Extraction	Jun 29, 2017	BIG-bench Machine Learningmodel	—Unverified
Interpretable and Effective Reinforcement Learning for Attacking against Graph-based Rumor Detection	Jan 15, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Interpretable and Efficient Data-driven Discovery and Control of Distributed Systems	Nov 6, 2024	Dimensionality ReductionReinforcement Learning (RL)	—Unverified
Interpretable and Explainable Logical Policies via Neurally Guided Symbolic Abstraction	Jun 2, 2023	Reinforcement Learning (RL)	—Unverified
Interpretable Control by Reinforcement Learning	Jul 20, 2020	reinforcement-learningReinforcement Learning	—Unverified
Interpretable Deep Reinforcement Learning for Green Security Games with Real-Time Information	Nov 9, 2022	Decision MakingDeep Reinforcement Learning	—Unverified
Interpretable Disease Prediction based on Reinforcement Path Reasoning over Knowledge Graphs	Oct 16, 2020	Disease PredictionKnowledge Graphs	—Unverified
Interpretable Dynamics Models for Data-Efficient Reinforcement Learning	Jul 10, 2019	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Interpretable end-to-end Neurosymbolic Reinforcement Learning agents	Oct 18, 2024	Atari GamesDeep Reinforcement Learning	—Unverified
Interpretable Hidden Markov Model-Based Deep Reinforcement Learning Hierarchical Framework for Predictive Maintenance of Turbofan Engines	Jun 27, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified
Interpretable Meta-Reinforcement Learning with Actor-Critic Method	Jan 1, 2021	Meta Reinforcement Learningreinforcement-learning	—Unverified
Interpretable Model-based Hierarchical Reinforcement Learning using Inductive Logic Programming	Jun 21, 2021	Deep Reinforcement LearningHierarchical Reinforcement Learning	—Unverified
Interpretable Multi-Objective Reinforcement Learning through Policy Orchestration	Sep 21, 2018	Multi-Objective Reinforcement Learningreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 221 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified