Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1276–1300 of 15113 papers

Title	Date	Tasks	Status	Hype
DPN: Decoupling Partition and Navigation for Neural Solvers of Min-max Vehicle Routing Problems	May 27, 2024	Reinforcement Learning (RL)	CodeCode Available	1
Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient	Oct 11, 2024	MambaModel-based Reinforcement Learning	CodeCode Available	1
A Practical Two-Stage Recipe for Mathematical LLMs: Maximizing Accuracy with SFT and Efficiency with Reinforcement Learning	Jul 11, 2025	MathMathematical Reasoning	CodeCode Available	1
Compound AI Systems Optimization: A Survey of Methods, Challenges, and Future Directions	Jun 9, 2025	Reinforcement Learning (RL)	CodeCode Available	1
ConfuciuX: Autonomous Hardware Resource Assignment for DNN Accelerators using Reinforcement Learning	Sep 4, 2020	Bayesian Optimizationreinforcement-learning	CodeCode Available	1
Constraint-Guided Reinforcement Learning: Augmenting the Agent-Environment-Interaction	Apr 24, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	1
Dropout Q-Functions for Doubly Efficient Reinforcement Learning	Oct 5, 2021	Computational EfficiencyQ-Learning	CodeCode Available	1
Active Exploration for Inverse Reinforcement Learning	Jul 18, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	1
DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training	Apr 13, 2025	Reinforcement Learning (RL)	CodeCode Available	1
DxFormer: A Decoupled Automatic Diagnostic System Based on Decoder-Encoder Transformer with Dense Symptom Representations	May 8, 2022	DecoderDiagnostic	CodeCode Available	1
Control-Oriented Model-Based Reinforcement Learning with Implicit Differentiation	Jun 6, 2021	Model-based Reinforcement Learningreinforcement-learning	CodeCode Available	1
Combining Semantic Guidance and Deep Reinforcement Learning For Generating Human Level Paintings	Nov 25, 2020	Deep Reinforcement LearningModel-based Reinforcement Learning	CodeCode Available	1
Reinforcement Learning for Combining Search Methods in the Calibration of Economic ABMs	Feb 23, 2023	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	1
CommonPower: A Framework for Safe Data-Driven Smart Grid Control	Jun 5, 2024	Benchmarkingenergy management	CodeCode Available	1
A Production Scheduling Framework for Reinforcement Learning Under Real-World Constraints	Jun 16, 2025	Job Shop SchedulingReinforcement Learning (RL)	CodeCode Available	1
Adversarial Deep Reinforcement Learning for Improving the Robustness of Multi-agent Autonomous Driving Policies	Dec 22, 2021	Autonomous DrivingDeep Reinforcement Learning	CodeCode Available	1
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining	Apr 10, 2025	Mathematical ReasoningReinforcement Learning (RL)	CodeCode Available	1
Adversarial Deep Reinforcement Learning in Portfolio Management	Aug 29, 2018	Deep Reinforcement LearningManagement	CodeCode Available	1
Edge Rewiring Goes Neural: Boosting Network Resilience without Rich Features	Oct 18, 2021	Graph Neural Networkreinforcement-learning	CodeCode Available	1
An Experimental Design Perspective on Model-Based Reinforcement Learning	Dec 9, 2021	continuous-controlContinuous Control	CodeCode Available	1
A reinforcement learning path planning approach for range-only underwater target localization with autonomous vehicles	Jan 17, 2023	Autonomous VehiclesReinforcement Learning (RL)	CodeCode Available	1
Efficient Adversarial Training without Attacking: Worst-Case-Aware Robust Reinforcement Learning	Oct 12, 2022	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Efficient Continuous Control with Double Actors and Regularized Critics	Jun 6, 2021	continuous-controlContinuous Control	CodeCode Available	1
A Crash Course on Reinforcement Learning	Mar 8, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	1
Combining Reinforcement Learning with Model Predictive Control for On-Ramp Merging	Nov 17, 2020	Autonomous DrivingModel Predictive Control	CodeCode Available	1

Show:10 25 50

← PrevPage 52 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified