Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1601–1625 of 15113 papers

Title	Date	Tasks	Status	Hype	Score
DMC-VB: A Benchmark for Representation Learning for Control with Visual Distractors	Sep 26, 2024	continuous-controlContinuous Control	CodeCode Available	1	5
NEORL: NeuroEvolution Optimization with Reinforcement Learning	Dec 1, 2021	Benchmarkingglobal-optimization	CodeCode Available	1	5
DNA: Proximal Policy Optimization with a Dual Network Architecture	Jun 20, 2022	Atari GamesReinforcement Learning (RL)	CodeCode Available	1	5
Generating Multiple-Length Summaries via Reinforcement Learning for Unsupervised Sentence Summarization	Dec 21, 2022	Abstractive Text Summarizationreinforcement-learning	CodeCode Available	1	5
Neural Inventory Control in Networks via Hindsight Differentiable Policy Optimization	Jun 20, 2023	Deep Reinforcement LearningManagement	CodeCode Available	1	5
Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making using Language Guided World Modelling	Jan 28, 2023	Decision MakingMinecraft	CodeCode Available	1	5
Battlesnake Challenge: A Multi-agent Reinforcement Learning Playground with Human-in-the-loop	Jul 20, 2020	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	1	5
Does Zero-Shot Reinforcement Learning Exist?	Sep 29, 2022	Contrastive Learningreinforcement-learning	CodeCode Available	1	5
Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs	May 19, 2025	Reinforcement Learning (RL)	CodeCode Available	1	5
NeuralSympCheck: A Symptom Checking and Disease Diagnostic Neural Model with Logic Regularization	Jun 2, 2022	DiagnosticReinforcement Learning (RL)	CodeCode Available	1	5
Don't Touch What Matters: Task-Aware Lipschitz Data Augmentation for Visual Reinforcement Learning	Feb 21, 2022	Data AugmentationDiversity	CodeCode Available	1	5
An End-to-End Reinforcement Learning Approach for Job-Shop Scheduling Problems Based on Constraint Programming	Jun 9, 2023	Combinatorial OptimizationFeature Engineering	CodeCode Available	1	5
An End-to-end Deep Reinforcement Learning Approach for the Long-term Short-term Planning on the Frenet Space	Nov 26, 2020	Decision MakingDeep Reinforcement Learning	CodeCode Available	1	5
Neurosymbolic Reinforcement Learning with Formally Verified Exploration	Sep 26, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	1	5
Batch Exploration with Examples for Scalable Robotic Reinforcement Learning	Oct 22, 2020	Offline RLreinforcement-learning	CodeCode Available	1	5
Building a 3-Player Mahjong AI using Deep Reinforcement Learning	Feb 25, 2022	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1	5
Asynchronous Multi-Agent Reinforcement Learning for Efficient Real-Time Multi-Robot Cooperative Exploration	Jan 9, 2023	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	1	5
No Representation, No Trust: Connecting Representation, Collapse, and Trust Issues in PPO	May 1, 2024	MuJoCoReinforcement Learning (RL)	CodeCode Available	1	5
Generating π-Functional Molecules Using STGG+ with Active Learning	Feb 20, 2025	Active Learningreinforcement-learning	CodeCode Available	1	5
Doubly Mild Generalization for Offline Reinforcement Learning	Nov 12, 2024	MuJoCoOffline RL	CodeCode Available	1	5
GMAI-VL-R1: Harnessing Reinforcement Learning for Multimodal Medical Reasoning	Apr 2, 2025	Decision MakingDiagnostic	CodeCode Available	1	5
DPN: Decoupling Partition and Navigation for Neural Solvers of Min-max Vehicle Routing Problems	May 27, 2024	Reinforcement Learning (RL)	CodeCode Available	1	5
Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient	Oct 11, 2024	MambaModel-based Reinforcement Learning	CodeCode Available	1	5
Drafting in Collectible Card Games via Reinforcement Learning	Nov 7, 2020	Card GamesDeep Reinforcement Learning	CodeCode Available	1	5
Graph Convolution-Based Deep Reinforcement Learning for Multi-Agent Decision-Making in Mixed Traffic Environments	Jan 30, 2022	Autonomous VehiclesDecision Making	CodeCode Available	1	5

Show:10 25 50

← PrevPage 65 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified