Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 926–950 of 15113 papers

Title	Date	Tasks	Status	Hype	Score
DNA: Proximal Policy Optimization with a Dual Network Architecture	Jun 20, 2022	Atari GamesReinforcement Learning (RL)	CodeCode Available	1	5
A Benchmark Environment for Offline Reinforcement Learning in Racing Games	Jul 12, 2024	reinforcement-learningReinforcement Learning	CodeCode Available	1	5
COptiDICE: Offline Constrained Reinforcement Learning via Stationary Distribution Correction Estimation	Apr 19, 2022	Offline RLOff-policy evaluation	CodeCode Available	1	5
Co-Reinforcement Learning for Unified Multimodal Understanding and Generation	May 23, 2025	Image Generationreinforcement-learning	CodeCode Available	1	5
CORA: Benchmarks, Baselines, and Metrics as a Platform for Continual Reinforcement Learning Agents	Oct 19, 2021	NetHackreinforcement-learning	CodeCode Available	1	5
Harnessing Mixed Offline Reinforcement Learning Datasets via Trajectory Weighting	Jun 22, 2023	Offline RLreinforcement-learning	CodeCode Available	1	5
A Meta-Reinforcement Learning Algorithm for Causal Discovery	Jul 18, 2022	Causal DiscoveryMeta Reinforcement Learning	CodeCode Available	1	5
Hearts Gym: Learning Reinforcement Learning as a Team Event	Sep 7, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	1	5
DittoGym: Learning to Control Soft Shape-Shifting Robots	Jan 24, 2024	Reinforcement Learning (RL)	CodeCode Available	1	5
A Benchmark Environment Motivated by Industrial Control Problems	Sep 27, 2017	OpenAI GymReinforcement Learning	CodeCode Available	1	5
Distributional Reinforcement Learning with Unconstrained Monotonic Neural Networks	Jun 6, 2021	Distributional Reinforcement Learningreinforcement-learning	CodeCode Available	1	5
Hierarchical Kickstarting for Skill Transfer in Reinforcement Learning	Jul 23, 2022	Inductive BiasNetHack	CodeCode Available	1	5
Hierarchical Learning-based Graph Partition for Large-scale Vehicle Routing Problems	Feb 12, 2025	Reinforcement Learning (RL)	CodeCode Available	1	5
Diverse Policy Optimization for Structured Action Space	Feb 23, 2023	DiversityReinforcement Learning (RL)	CodeCode Available	1	5
A Minimalist Approach to Offline Reinforcement Learning	Jun 12, 2021	Offline RLreinforcement-learning	CodeCode Available	1	5
Distributed Resource Allocation with Multi-Agent Deep Reinforcement Learning for 5G-V2V Communication	Oct 11, 2020	Deep Reinforcement LearningDistributed Optimization	CodeCode Available	1	5
Hierarchical Skills for Efficient Exploration	Oct 20, 2021	continuous-controlContinuous Control	CodeCode Available	1	5
Distributional Reinforcement Learning via Moment Matching	Jul 24, 2020	Atari GamesDistributional Reinforcement Learning	CodeCode Available	1	5
Diversify Question Generation with Retrieval-Augmented Style Transfer	Oct 23, 2023	DiversityQuestion Answering	CodeCode Available	1	5
Adversarial Deep Reinforcement Learning in Portfolio Management	Aug 29, 2018	Deep Reinforcement LearningManagement	CodeCode Available	1	5
HIQL: Offline Goal-Conditioned RL with Latent States as Actions	Jul 22, 2023	Reinforcement Learning (RL)Unsupervised Pre-training	CodeCode Available	1	5
Adversarial Deep Reinforcement Learning for Improving the Robustness of Multi-agent Autonomous Driving Policies	Dec 22, 2021	Autonomous DrivingDeep Reinforcement Learning	CodeCode Available	1	5
Hoplite: Efficient and Fault-Tolerant Collective Communication for Task-Based Distributed Systems	Feb 13, 2020	Distributed Computingreinforcement-learning	CodeCode Available	1	5
Distributed Online Service Coordination Using Deep Reinforcement Learning	Jul 7, 2021	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1	5
Accelerating Exploration with Unlabeled Prior Data	Nov 9, 2023	Reinforcement Learning (RL)	CodeCode Available	1	5

Show:10 25 50

← PrevPage 38 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified