Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 9401–9425 of 15113 papers

Title	Date	Tasks	Status
Reinforcement Learning with Structured Hierarchical Grammar Representations of Actions	Oct 7, 2019	Atari GamesQ-Learning	—Unverified
Reinforcement Learning with Subspaces using Free Energy Paradigm	Dec 13, 2020	reinforcement-learningReinforcement Learning	—Unverified
Reinforcement Learning with Supervision from Noisy Demonstrations	Jun 14, 2020	reinforcement-learningReinforcement Learning	—Unverified
Reinforcement Learning With Temporal Logic Rewards	Dec 11, 2016	reinforcement-learningReinforcement Learning	—Unverified
Reinforcement Learning with Temporal-Logic-Based Causal Diagrams	Jun 23, 2023	reinforcement-learningReinforcement Learning	—Unverified
Reinforcement Learning with Time-dependent Goals for Robotic Musicians	Nov 11, 2020	reinforcement-learningReinforcement Learning	—Unverified
Reinforcement Learning with Trajectory Feedback	Aug 13, 2020	reinforcement-learningReinforcement Learning	—Unverified
Reinforcement Learning with Unbiased Policy Evaluation and Linear Function Approximation	Oct 13, 2022	reinforcement-learningReinforcement Learning	—Unverified
Reinforcement Learning with Uncertainty Estimation for Tactical Decision-Making in Intersections	Jun 17, 2020	Autonomous DrivingDecision Making	—Unverified
Reinforcement Learning Your Way: Agent Characterization through Policy Regularization	Jan 21, 2022	reinforcement-learningReinforcement Learning	—Unverified
Reinforcement Pre-Training	Jun 9, 2025	Language ModelingLanguage Modelling	—Unverified
Reinforcement Speculative Decoding for Fast Ranking	May 23, 2025	Information RetrievalRecommendation Systems	—Unverified
Reinforce Security: A Model-Free Approach Towards Secure Wiretap Coding	Jun 1, 2021	Mutual Information Estimationreinforcement-learning	—Unverified
Single-step Options for Adversary Driving	Mar 20, 2019	reinforcement-learningReinforcement Learning	—Unverified
Reinforcing Semantic-Symmetry for Document Summarization	Dec 14, 2021	Document Summarizationreinforcement-learning	—Unverified
Reinforcing the Diffusion Chain of Lateral Thought with Diffusion Language Models	May 15, 2025	Code GenerationGSM8K	—Unverified
Reinforcing User Retention in a Billion Scale Short Video Recommender System	Feb 3, 2023	Recommendation Systemsreinforcement-learning	—Unverified
Relate to Predict: Towards Task-Independent Knowledge Representations for Reinforcement Learning	Dec 10, 2022	Inductive BiasObject	—Unverified
Relational Abstractions for Generalized Reinforcement Learning on Symbolic Problems	Apr 27, 2022	Objectreinforcement-learning	—Unverified
Relational Deep Reinforcement Learning for Routing in Wireless Networks	Dec 31, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Relational-Grid-World: A Novel Relational Reasoning Environment and An Agent Model for Relational Information Extraction	Jul 12, 2020	Decision MakingReinforcement Learning (RL)	—Unverified
Relation Mention Extraction from Noisy Data with Hierarchical Reinforcement Learning	Nov 3, 2018	DenoisingHierarchical Reinforcement Learning	—Unverified
Relation-R1: Cognitive Chain-of-Thought Guided Reinforcement Learning for Unified Relational Comprehension	Apr 20, 2025	Graph GenerationReinforcement Learning (RL)	—Unverified
Relationship Explainable Multi-objective Reinforcement Learning with Semantic Explainability Generation	Sep 26, 2019	MuJoCoMulti-Objective Reinforcement Learning	—Unverified
Relationship Explainable Multi-objective Optimization Via Vector Value Function Based Reinforcement Learning	Oct 2, 2019	reinforcement-learningReinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 377 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified