Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3476–3500 of 15113 papers

Title	Date	Tasks	Status	Score
Deep Q-Learning based Reinforcement Learning Approach for Network Intrusion Detection	Nov 27, 2021	Intrusion DetectionNetwork Intrusion Detection	CodeCode Available	5
Guided Exploration in Reinforcement Learning via Monte Carlo Critic Optimization	Jun 25, 2022	continuous-controlContinuous Control	CodeCode Available	5
Gym-Ignition: Reproducible Robotic Simulations for Reinforcement Learning	Nov 5, 2019	OpenAI Gymreinforcement-learning	CodeCode Available	5
Reinforcement Learning from Hierarchical Critics	Feb 8, 2019	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	5
Deep Q-learning from Demonstrations	Apr 12, 2017	Decision MakingDeep Reinforcement Learning	CodeCode Available	5
Optimistic Distributionally Robust Policy Optimization	Jun 14, 2020	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	5
Green Simulation Assisted Reinforcement Learning with Model Risk for Biomanufacturing Learning and Control	Jun 17, 2020	Decision MakingModel-based Reinforcement Learning	CodeCode Available	5
Automata Learning meets Shielding	Dec 4, 2022	Q-LearningReinforcement Learning (RL)	CodeCode Available	5
GREEN-CODE: Learning to Optimize Energy Efficiency in LLM-based Code Generation	Jan 19, 2025	Bug fixingCode Completion	CodeCode Available	5
Grounding Language for Transfer in Deep Reinforcement Learning	Aug 1, 2017	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	5
ARCHER: Aggressive Rewards to Counter bias in Hindsight Experience Replay	Sep 6, 2018	continuous-controlContinuous Control	CodeCode Available	5
Graph Convolutional Reinforcement Learning	Oct 22, 2018	Decision Makingreinforcement-learning	CodeCode Available	5
Automated Curriculum Learning by Rewarding Temporally Rare Events	Mar 19, 2018	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available	5
Grammars and reinforcement learning for molecule optimization	Nov 27, 2018	reinforcement-learningReinforcement Learning	CodeCode Available	5
Gradual Transition from Bellman Optimality Operator to Bellman Operator in Online Reinforcement Learning	Jun 6, 2025	Reinforcement Learning (RL)	CodeCode Available	5
Graph Backup: Data Efficient Backup Exploiting Markovian Transitions	May 31, 2022	Atari Gamescounterfactual	CodeCode Available	5
Improving the Data-efficiency of Reinforcement Learning by Warm-starting with LLM	May 16, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
GraphNAS: Graph Neural Architecture Search with Reinforcement Learning	Apr 22, 2019	General ClassificationInductive Learning	CodeCode Available	5
Gotta Learn Fast: A New Benchmark for Generalization in RL	Apr 10, 2018	Few-Shot Learningreinforcement-learning	CodeCode Available	5
GoSum: Extractive Summarization of Long Documents by Reinforcement Learning and Graph Organized discourse state	Nov 18, 2022	ArticlesDocument Summarization	CodeCode Available	5
Optimizing Warfarin Dosing using Deep Reinforcement Learning	Feb 7, 2022	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	5
Automated Discovery of Local Rules for Desired Collective-Level Behavior Through Reinforcement Learning	Jul 25, 2020	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	5
Accelerating Reinforcement Learning through GPU Atari Emulation	Jul 19, 2019	Atari GamesCPU	CodeCode Available	5
Combining Reinforcement Learning and Optimal Transport for the Traveling Salesman Problem	Mar 2, 2022	Combinatorial OptimizationDeep Learning	CodeCode Available	5
ARAML: A Stable Adversarial Training Framework for Text Generation	Aug 20, 2019	reinforcement-learningReinforcement Learning	CodeCode Available	5

Show:10 25 50

← PrevPage 140 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified