Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5151–5175 of 15113 papers

Title	Date	Tasks	Status
Reinforcing the Diffusion Chain of Lateral Thought with Diffusion Language Models	May 15, 2025	Code GenerationGSM8K	—Unverified
Reinforcing User Retention in a Billion Scale Short Video Recommender System	Feb 3, 2023	Recommendation Systemsreinforcement-learning	—Unverified
Relate to Predict: Towards Task-Independent Knowledge Representations for Reinforcement Learning	Dec 10, 2022	Inductive BiasObject	—Unverified
Relational Abstractions for Generalized Reinforcement Learning on Symbolic Problems	Apr 27, 2022	Objectreinforcement-learning	—Unverified
Relational Deep Reinforcement Learning for Routing in Wireless Networks	Dec 31, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Relational-Grid-World: A Novel Relational Reasoning Environment and An Agent Model for Relational Information Extraction	Jul 12, 2020	Decision MakingReinforcement Learning (RL)	—Unverified
Relation Mention Extraction from Noisy Data with Hierarchical Reinforcement Learning	Nov 3, 2018	DenoisingHierarchical Reinforcement Learning	—Unverified
Relation-R1: Cognitive Chain-of-Thought Guided Reinforcement Learning for Unified Relational Comprehension	Apr 20, 2025	Graph GenerationReinforcement Learning (RL)	—Unverified
Relationship Explainable Multi-objective Reinforcement Learning with Semantic Explainability Generation	Sep 26, 2019	MuJoCoMulti-Objective Reinforcement Learning	—Unverified
Relationship Explainable Multi-objective Optimization Via Vector Value Function Based Reinforcement Learning	Oct 2, 2019	reinforcement-learningReinforcement Learning	—Unverified
Relative Distributed Formation and Obstacle Avoidance with Multi-agent Reinforcement Learning	Nov 14, 2021	Model Predictive ControlMulti-agent Reinforcement Learning	—Unverified
Relative Importance Sampling for off-Policy Actor-Critic in Deep Reinforcement Learning	Oct 30, 2018	Deep Reinforcement LearningOpenAI Gym	—Unverified
Relative Policy-Transition Optimization for Fast Policy Transfer	Jun 13, 2022	continuous-controlContinuous Control	—Unverified
A Transfer Learning Approach to Minimize Reinforcement Learning Risks in Energy Optimization for Smart Buildings	Apr 30, 2023	reinforcement-learningReinforcement Learning	—Unverified
RELDEC: Reinforcement Learning-Based Decoding of Moderate Length LDPC Codes	Dec 27, 2021	Meta Reinforcement Learningreinforcement-learning	—Unverified
ReLeaSER: A Reinforcement Learning Strategy for Optimizing Utilization Of Ephemeral Cloud Resources	Sep 23, 2020	CPUreinforcement-learning	—Unverified
ReLeQ: A Reinforcement Learning Approach for Deep Quantization of Neural Networks	Nov 5, 2018	Deep Reinforcement LearningQuantization	—Unverified
Reliable Critics: Monotonic Improvement and Convergence Guarantees for Reinforcement Learning	Jun 8, 2025	Reinforcement Learning (RL)	—Unverified
Reliable Off-policy Evaluation for Reinforcement Learning	Nov 8, 2020	Decision MakingOff-policy evaluation	—Unverified
Reliable validation of Reinforcement Learning Benchmarks	Mar 2, 2022	BenchmarkingData Compression	—Unverified
Fully Autonomous Real-World Reinforcement Learning with Applications to Mobile Manipulation	Jul 28, 2021	Continual LearningNavigate	—Unverified
ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for Mobile Manipulation	Aug 18, 2020	continuous-controlContinuous Control	—Unverified
ReLOAD: Reinforcement Learning with Optimistic Ascent-Descent for Last-Iterate Convergence in Constrained MDPs	Feb 2, 2023	continuous-controlContinuous Control	—Unverified
REMEDI: REinforcement learning-driven adaptive MEtabolism modeling of primary sclerosing cholangitis DIsease progression	Oct 2, 2023	Reinforcement Learning (RL)	—Unverified
Remember and Forget Experience Replay for Multi-Agent Reinforcement Learning	Mar 24, 2022	continuous-controlContinuous Control	—Unverified

Show:10 25 50

← PrevPage 207 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified