Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1901–1925 of 15113 papers

Title	Date	Tasks	Status	Hype	Score
"Good Robot!": Efficient Reinforcement Learning for Multi-Step Visual Tasks with Sim to Real Transfer	Sep 25, 2019	reinforcement-learningReinforcement Learning	CodeCode Available	1	5
Improving the Validity of Automatically Generated Feedback via Reinforcement Learning	Mar 2, 2024	MathMisconceptions	CodeCode Available	1	5
In-Context Decision Transformer: Reinforcement Learning via Hierarchical Chain-of-Thought	May 31, 2024	D4RLDecision Making	CodeCode Available	1	5
Safe Reinforcement Learning via Curriculum Induction	Jun 22, 2020	Autonomous Drivingreinforcement-learning	CodeCode Available	1	5
Safety Filtering While Training: Improving the Performance and Sample Efficiency of Reinforcement Learning Agents	Oct 15, 2024	Reinforcement Learning (RL)	CodeCode Available	1	5
Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint	Jan 11, 2024	Question AnsweringReinforcement Learning (RL)	CodeCode Available	1	5
Improving Generalization in Reinforcement Learning with Mixture Regularization	Oct 21, 2020	Data AugmentationDeep Reinforcement Learning	CodeCode Available	1	5
Improving Model-Based Reinforcement Learning with Internal State Representations through Self-Supervision	Feb 10, 2021	Board GamesModel-based Reinforcement Learning	CodeCode Available	1	5
Gradient Surgery for Multi-Task Learning	Jan 19, 2020	Deep Reinforcement Learningimage-classification	CodeCode Available	1	5
A Workflow for Offline Model-Free Robotic Reinforcement Learning	Sep 22, 2021	Offline RLreinforcement-learning	CodeCode Available	1	5
Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay	Jun 5, 2025	Reinforcement Learning (RL)	CodeCode Available	1	5
Graph Constrained Reinforcement Learning for Natural Language Action Spaces	Jan 23, 2020	Action GenerationNatural Language Understanding	CodeCode Available	1	5
BabyAI 1.1	Jul 24, 2020	Computational EfficiencyImitation Learning	CodeCode Available	1	5
Zero-Shot Compositional Policy Learning via Language Grounding	Apr 15, 2020	DescriptiveDomain Adaptation	CodeCode Available	1	5
Graph Convolutional Value Decomposition in Multi-Agent Reinforcement Learning	Oct 9, 2020	Deep Reinforcement LearningMulti-agent Reinforcement Learning	CodeCode Available	1	5
Graph Convolution-Based Deep Reinforcement Learning for Multi-Agent Decision-Making in Mixed Traffic Environments	Jan 30, 2022	Autonomous VehiclesDecision Making	CodeCode Available	1	5
A Modular Framework for Reinforcement Learning Optimal Execution	Aug 11, 2022	Algorithmic Tradingreinforcement-learning	CodeCode Available	1	5
Graph Neural Network Reinforcement Learning for Autonomous Mobility-on-Demand Systems	Apr 23, 2021	Decision MakingDeep Reinforcement Learning	CodeCode Available	1	5
Benchmarking Reinforcement Learning Techniques for Autonomous Navigation	Oct 10, 2022	Autonomous NavigationBenchmarking	CodeCode Available	1	5
Grounding Hindsight Instructions in Multi-Goal Reinforcement Learning for Robotics	Apr 8, 2022	Multi-Goal Reinforcement Learningreinforcement-learning	CodeCode Available	1	5
Improving Generalization in Meta-RL with Imaginary Tasks from Latent Dynamics Mixture	May 28, 2021	Meta Reinforcement LearningMuJoCo	CodeCode Available	1	5
Grid-to-Graph: Flexible Spatial Relational Inductive Biases for Reinforcement Learning	Feb 8, 2021	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	1	5
Grounding Language to Entities and Dynamics for Generalization in Reinforcement Learning	Jan 19, 2021	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	1	5
Sample Efficient Reinforcement Learning via Model-Ensemble Exploration and Exploitation	Jul 5, 2021	continuous-controlContinuous Control	CodeCode Available	1	5
Addressing Function Approximation Error in Actor-Critic Methods	Feb 26, 2018	Continuous ControlOpenAI Gym	CodeCode Available	1	5

Show:10 25 50

← PrevPage 77 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified