Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1251–1300 of 15113 papers

Title	Date	Tasks	Status	Hype
Discovering General Reinforcement Learning Algorithms with Adversarial Environment Design	Oct 4, 2023	Deep Reinforcement LearningGeneral Reinforcement Learning	CodeCode Available	1
Discovering Hierarchical Achievements in Reinforcement Learning via Contrastive Learning	Jul 7, 2023	Contrastive Learningreinforcement-learning	CodeCode Available	1
Discovering Reinforcement Learning Algorithms	Jul 17, 2020	Atari GamesMeta-Learning	CodeCode Available	1
Discrete Codebook World Models for Continuous Control	Mar 1, 2025	continuous-controlContinuous Control	CodeCode Available	1
Compositional Reinforcement Learning from Logical Specifications	Jun 25, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	1
DISK: Learning local features with policy gradient	Jun 24, 2020	Image Matchingreinforcement-learning	CodeCode Available	1
Distilling Motion Planner Augmented Policies into Visual Control Policies for Robot Manipulation	Nov 11, 2021	Imitation LearningMotion Planning	CodeCode Available	1
Distilling Reinforcement Learning Algorithms for In-Context Model-Based Planning	Feb 26, 2025	In-Context Reinforcement LearningReinforcement Learning (RL)	CodeCode Available	1
Compile Scene Graphs with Reinforcement Learning	Apr 18, 2025	reinforcement-learningReinforcement Learning	CodeCode Available	1
Distributed Control of Partial Differential Equations Using Convolutional Reinforcement Learning	Jan 25, 2023	reinforcement-learningReinforcement Learning	CodeCode Available	1
CompoSuite: A Compositional Reinforcement Learning Benchmark	Jul 8, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	1
Distributed Online Service Coordination Using Deep Reinforcement Learning	Jul 7, 2021	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Accelerating Deep Reinforcement Learning for Digital Twin Network Optimization with Evolutionary Strategies	Feb 1, 2022	Deep Reinforcement LearningManagement	CodeCode Available	1
A Reinforcement Learning Environment For Job-Shop Scheduling	Apr 8, 2021	Combinatorial OptimizationDeep Reinforcement Learning	CodeCode Available	1
DittoGym: Learning to Control Soft Shape-Shifting Robots	Jan 24, 2024	Reinforcement Learning (RL)	CodeCode Available	1
Diverse Policy Optimization for Structured Action Space	Feb 23, 2023	DiversityReinforcement Learning (RL)	CodeCode Available	1
DMC-VB: A Benchmark for Representation Learning for Control with Visual Distractors	Sep 26, 2024	continuous-controlContinuous Control	CodeCode Available	1
DMR: Decomposed Multi-Modality Representations for Frames and Events Fusion in Visual Reinforcement Learning	Jan 1, 2024	Reinforcement Learning (RL)	CodeCode Available	1
Competitiveness of MAP-Elites against Proximal Policy Optimization on locomotion tasks in deterministic simulations	Sep 17, 2020	Evolutionary AlgorithmsReinforcement Learning (RL)	CodeCode Available	1
Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making using Language Guided World Modelling	Jan 28, 2023	Decision MakingMinecraft	CodeCode Available	1
Visual Grounding for Object-Level Generalization in Reinforcement Learning	Aug 4, 2024	Language ModellingObject	CodeCode Available	1
Approximating Gradients for Differentiable Quality Diversity in Reinforcement Learning	Feb 8, 2022	Diversityreinforcement-learning	CodeCode Available	1
Don't Touch What Matters: Task-Aware Lipschitz Data Augmentation for Visual Reinforcement Learning	Feb 21, 2022	Data AugmentationDiversity	CodeCode Available	1
Compiler Optimization for Quantum Computing Using Reinforcement Learning	Dec 8, 2022	Compiler Optimizationreinforcement-learning	CodeCode Available	1
Advantage-Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning	Oct 1, 2019	continuous-controlContinuous Control	CodeCode Available	1
DPN: Decoupling Partition and Navigation for Neural Solvers of Min-max Vehicle Routing Problems	May 27, 2024	Reinforcement Learning (RL)	CodeCode Available	1
Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient	Oct 11, 2024	MambaModel-based Reinforcement Learning	CodeCode Available	1
A Practical Two-Stage Recipe for Mathematical LLMs: Maximizing Accuracy with SFT and Efficiency with Reinforcement Learning	Jul 11, 2025	MathMathematical Reasoning	CodeCode Available	1
Compound AI Systems Optimization: A Survey of Methods, Challenges, and Future Directions	Jun 9, 2025	Reinforcement Learning (RL)	CodeCode Available	1
ConfuciuX: Autonomous Hardware Resource Assignment for DNN Accelerators using Reinforcement Learning	Sep 4, 2020	Bayesian Optimizationreinforcement-learning	CodeCode Available	1
Constraint-Guided Reinforcement Learning: Augmenting the Agent-Environment-Interaction	Apr 24, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	1
Dropout Q-Functions for Doubly Efficient Reinforcement Learning	Oct 5, 2021	Computational EfficiencyQ-Learning	CodeCode Available	1
Active Exploration for Inverse Reinforcement Learning	Jul 18, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	1
DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training	Apr 13, 2025	Reinforcement Learning (RL)	CodeCode Available	1
DxFormer: A Decoupled Automatic Diagnostic System Based on Decoder-Encoder Transformer with Dense Symptom Representations	May 8, 2022	DecoderDiagnostic	CodeCode Available	1
Control-Oriented Model-Based Reinforcement Learning with Implicit Differentiation	Jun 6, 2021	Model-based Reinforcement Learningreinforcement-learning	CodeCode Available	1
Combining Semantic Guidance and Deep Reinforcement Learning For Generating Human Level Paintings	Nov 25, 2020	Deep Reinforcement LearningModel-based Reinforcement Learning	CodeCode Available	1
Reinforcement Learning for Combining Search Methods in the Calibration of Economic ABMs	Feb 23, 2023	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	1
CommonPower: A Framework for Safe Data-Driven Smart Grid Control	Jun 5, 2024	Benchmarkingenergy management	CodeCode Available	1
A Production Scheduling Framework for Reinforcement Learning Under Real-World Constraints	Jun 16, 2025	Job Shop SchedulingReinforcement Learning (RL)	CodeCode Available	1
Adversarial Deep Reinforcement Learning for Improving the Robustness of Multi-agent Autonomous Driving Policies	Dec 22, 2021	Autonomous DrivingDeep Reinforcement Learning	CodeCode Available	1
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining	Apr 10, 2025	Mathematical ReasoningReinforcement Learning (RL)	CodeCode Available	1
Adversarial Deep Reinforcement Learning in Portfolio Management	Aug 29, 2018	Deep Reinforcement LearningManagement	CodeCode Available	1
Edge Rewiring Goes Neural: Boosting Network Resilience without Rich Features	Oct 18, 2021	Graph Neural Networkreinforcement-learning	CodeCode Available	1
An Experimental Design Perspective on Model-Based Reinforcement Learning	Dec 9, 2021	continuous-controlContinuous Control	CodeCode Available	1
A reinforcement learning path planning approach for range-only underwater target localization with autonomous vehicles	Jan 17, 2023	Autonomous VehiclesReinforcement Learning (RL)	CodeCode Available	1
Efficient Adversarial Training without Attacking: Worst-Case-Aware Robust Reinforcement Learning	Oct 12, 2022	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Efficient Continuous Control with Double Actors and Regularized Critics	Jun 6, 2021	continuous-controlContinuous Control	CodeCode Available	1
A Crash Course on Reinforcement Learning	Mar 8, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	1
Combining Reinforcement Learning with Model Predictive Control for On-Ramp Merging	Nov 17, 2020	Autonomous DrivingModel Predictive Control	CodeCode Available	1

Show:10 25 50

← PrevPage 26 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified