Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3326–3350 of 15113 papers

Title	Date	Tasks	Status	Score
Multi-hop Reading Comprehension via Deep Reinforcement Learning based Document Traversal	May 23, 2019	Decision MakingDeep Reinforcement Learning	CodeCode Available	5
A Reinforcement Learning Approach to Domain-Knowledge Inclusion Using Grammar Guided Symbolic Regression	Feb 9, 2022	regressionreinforcement-learning	CodeCode Available	5
Computational Benefits of Intermediate Rewards for Goal-Reaching Policy Learning	Jul 8, 2021	Hierarchical Reinforcement LearningQ-Learning	CodeCode Available	5
Hard Prompts Made Interpretable: Sparse Entropy Regularization for Prompt Tuning with RL	Jul 20, 2024	Few-Shot Text ClassificationQ-Learning	CodeCode Available	5
HAMMER: Multi-Level Coordination of Reinforcement Learning Agents via Learned Messaging	Jan 18, 2021	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	5
Handling Delay in Real-Time Reinforcement Learning	Mar 30, 2025	MuJoCoreinforcement-learning	CodeCode Available	5
Multiple Object Recognition with Visual Attention	Dec 24, 2014	ObjectObject Recognition	CodeCode Available	5
gym-gazebo2, a toolkit for reinforcement learning using ROS 2 and Gazebo	Mar 14, 2019	BenchmarkingOpenAI Gym	CodeCode Available	5
Decision-Aware Actor-Critic with Function Approximation and Theoretical Guarantees	May 24, 2023	Reinforcement Learning (RL)	CodeCode Available	5
Gym-Ignition: Reproducible Robotic Simulations for Reinforcement Learning	Nov 5, 2019	OpenAI Gymreinforcement-learning	CodeCode Available	5
GuideLight: "Industrial Solution" Guidance for More Practical Traffic Signal Control Agents	Jul 15, 2024	Reinforcement Learning (RL)Traffic Signal Control	CodeCode Available	5
Multi-task Deep Reinforcement Learning with PopArt	Sep 12, 2018	Atari GamesDeep Reinforcement Learning	CodeCode Available	5
Adversarial Online Multi-Task Reinforcement Learning	Jan 11, 2023	reinforcement-learningReinforcement Learning	CodeCode Available	5
Guiding Evolutionary Strategies by Differentiable Robot Simulators	Oct 1, 2021	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	5
A Reinforcement Learning Approach to Interactive-Predictive Neural Machine Translation	May 3, 2018	Machine Translationreinforcement-learning	CodeCode Available	5
Active Object Localization with Deep Reinforcement Learning	Nov 18, 2015	Active Object LocalizationDeep Reinforcement Learning	CodeCode Available	5
Guided Policy Optimization under Partial Observability	May 21, 2025	continuous-controlContinuous Control	CodeCode Available	5
Guided Dialog Policy Learning: Reward Estimation for Multi-Domain Task-Oriented Dialog	Aug 28, 2019	reinforcement-learningReinforcement Learning	CodeCode Available	5
Guided Deep Reinforcement Learning for Swarm Systems	Sep 18, 2017	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	5
Guided Dialog Policy Learning without Adversarial Learning in the Loop	Apr 7, 2020	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available	5
Multivariate Time Series Early Classification Across Channel and Time Dimensions	Jun 26, 2023	ClassificationEarly Classification	CodeCode Available	5
Compositional Learning of Visually-Grounded Concepts Using Reinforcement	Sep 8, 2023	Deep Reinforcement LearningNavigate	CodeCode Available	5
Guide Actor-Critic for Continuous Control	May 22, 2017	continuous-controlContinuous Control	CodeCode Available	5
Guided Cooperation in Hierarchical Reinforcement Learning via Model-based Rollout	Sep 24, 2023	Hierarchical Reinforcement Learningreinforcement-learning	CodeCode Available	5
Guided Dialogue Policy Learning without Adversarial Learning in the Loop	Nov 1, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	5

Show:10 25 50

← PrevPage 134 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified