Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 901–925 of 15113 papers

Title	Date	Tasks	Status	Hype
From discrete-time policies to continuous-time diffusion samplers: Asymptotic equivalences and faster training	Jan 10, 2025	Reinforcement Learning (RL)	CodeCode Available	1
From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning	May 21, 2025	Question AnsweringReinforcement Learning (RL)	CodeCode Available	1
ACN-Sim: An Open-Source Simulator for Data-Driven Electric Vehicle Charging Research	Dec 4, 2020	OpenAI GymReinforcement Learning (RL)	CodeCode Available	1
Continual Model-Based Reinforcement Learning with Hypernetworks	Sep 25, 2020	Continual Learningmodel	CodeCode Available	1
Adversarial Deep Reinforcement Learning in Portfolio Management	Aug 29, 2018	Deep Reinforcement LearningManagement	CodeCode Available	1
Adversarial Deep Reinforcement Learning for Improving the Robustness of Multi-agent Autonomous Driving Policies	Dec 22, 2021	Autonomous DrivingDeep Reinforcement Learning	CodeCode Available	1
Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-Per-Second	Jun 13, 2023	GPUReinforcement Learning (RL)	CodeCode Available	1
Gamma and Vega Hedging Using Deep Distributional Reinforcement Learning	May 10, 2022	Distributional Reinforcement LearningPosition	CodeCode Available	1
Gated Hierarchical Attention for Image Captioning	Oct 30, 2018	DecoderImage Captioning	CodeCode Available	1
Gaussian RAM: Lightweight Image Classification via Stochastic Retina-Inspired Glimpse and Reinforcement Learning	Nov 12, 2020	ClassificationGeneral Classification	CodeCode Available	1
A coevolutionary approach to deep multi-agent reinforcement learning	Apr 12, 2021	Atari GamesDecision Making	CodeCode Available	1
An Efficient Asynchronous Method for Integrating Evolutionary and Gradient-based Policy Search	Dec 10, 2020	continuous-controlContinuous Control	CodeCode Available	1
Generalization in Reinforcement Learning by Soft Data Augmentation	Nov 26, 2020	Data Augmentationreinforcement-learning	CodeCode Available	1
Generalization to New Actions in Reinforcement Learning	Nov 3, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	1
Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning	Jun 10, 2025	Large Language Modelreinforcement-learning	CodeCode Available	1
Accelerating Exploration with Unlabeled Prior Data	Nov 9, 2023	Reinforcement Learning (RL)	CodeCode Available	1
Generalizing Goal-Conditioned Reinforcement Learning with Variational Causal Reasoning	Jul 19, 2022	Causal Discoveryreinforcement-learning	CodeCode Available	1
Consistency Models as a Rich and Efficient Policy Class for Reinforcement Learning	Sep 29, 2023	Image GenerationOffline RL	CodeCode Available	1
Conservative Q-Learning for Offline Reinforcement Learning	Jun 8, 2020	continuous-controlContinuous Control	CodeCode Available	1
Active Exploration for Inverse Reinforcement Learning	Jul 18, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	1
Zero-Shot Reinforcement Learning from Low Quality Data	Sep 26, 2023	Offline RLreinforcement-learning	CodeCode Available	1
Conservative and Adaptive Penalty for Model-Based Safe Reinforcement Learning	Dec 14, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	1
A Multiplicative Value Function for Safe and Efficient Reinforcement Learning	Mar 7, 2023	Navigatereinforcement-learning	CodeCode Available	1
Geometric Deep Reinforcement Learning for Dynamic DAG Scheduling	Nov 9, 2020	Combinatorial OptimizationDeep Reinforcement Learning	CodeCode Available	1
Conservative Offline Distributional Reinforcement Learning	Jul 12, 2021	D4RLDistributional Reinforcement Learning	CodeCode Available	1

Show:10 25 50

← PrevPage 37 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified