Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 801–850 of 15113 papers

Title	Date	Tasks	Status	Hype
Doubly Mild Generalization for Offline Reinforcement Learning	Nov 12, 2024	MuJoCoOffline RL	CodeCode Available	1
Contingency-Aware Influence Maximization: A Reinforcement Learning Approach	Jun 13, 2021	Combinatorial Optimizationreinforcement-learning	CodeCode Available	1
Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient	Oct 11, 2024	MambaModel-based Reinforcement Learning	CodeCode Available	1
Dream and Search to Control: Latent Space Planning for Continuous Control	Oct 19, 2020	continuous-controlContinuous Control	CodeCode Available	1
A Minimalist Approach to Offline Reinforcement Learning	Jun 12, 2021	Offline RLreinforcement-learning	CodeCode Available	1
DreamerPro: Reconstruction-Free Model-Based Reinforcement Learning with Prototypical Representations	Oct 27, 2021	Model-based Reinforcement Learningreinforcement-learning	CodeCode Available	1
Constrained Update Projection Approach to Safe Policy Optimization	Sep 15, 2022	Reinforcement Learning (RL)Safe Reinforcement Learning	CodeCode Available	1
Constrained Policy Optimization via Bayesian World Models	Jan 24, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	1
DrM: Mastering Visual Reinforcement Learning through Dormant Ratio Minimization	Oct 30, 2023	continuous-controlContinuous Control	CodeCode Available	1
DROPO: Sim-to-Real Transfer with Offline Domain Randomization	Jan 20, 2022	Reinforcement Learning (RL)	CodeCode Available	1
DTR-Bench: An in silico Environment and Benchmark Platform for Reinforcement Learning Based Dynamic Treatment Regime	May 28, 2024	BenchmarkingReinforcement Learning (RL)	CodeCode Available	1
DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training	Apr 13, 2025	Reinforcement Learning (RL)	CodeCode Available	1
Constrained Variational Policy Optimization for Safe Reinforcement Learning	Jan 28, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	1
DxFormer: A Decoupled Automatic Diagnostic System Based on Decoder-Encoder Transformer with Dense Symptom Representations	May 8, 2022	DecoderDiagnostic	CodeCode Available	1
Active Inference for Stochastic Control	Aug 27, 2021	Reinforcement Learning (RL)	CodeCode Available	1
Constrained episodic reinforcement learning in concave-convex and knapsack settings	Jun 9, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	1
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining	Apr 10, 2025	Mathematical ReasoningReinforcement Learning (RL)	CodeCode Available	1
EDGE: Explaining Deep Reinforcement Learning Policies	Dec 1, 2021	Deep Reinforcement LearningMuJoCo	CodeCode Available	1
Effective Diversity in Population Based Reinforcement Learning	Feb 3, 2020	DiversityPoint Processes	CodeCode Available	1
Effective Multi-User Delay-Constrained Scheduling with Deep Recurrent Reinforcement Learning	Aug 30, 2022	Cloud ComputingDeep Reinforcement Learning	CodeCode Available	1
Efficient Active Search for Combinatorial Optimization Problems	Jun 9, 2021	BIG-bench Machine LearningCombinatorial Optimization	CodeCode Available	1
Efficient Adversarial Training without Attacking: Worst-Case-Aware Robust Reinforcement Learning	Oct 12, 2022	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Constraint-Guided Reinforcement Learning: Augmenting the Agent-Environment-Interaction	Apr 24, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	1
Efficient Model-Based Reinforcement Learning through Optimistic Policy Search and Planning	Jun 15, 2020	Model-based Reinforcement Learningreinforcement-learning	CodeCode Available	1
AI2-THOR: An Interactive 3D Environment for Visual AI	Dec 14, 2017	Deep Reinforcement LearningImitation Learning	CodeCode Available	1
Continual Backprop: Stochastic Gradient Descent with Persistent Randomness	Aug 13, 2021	Continual LearningReinforcement Learning (RL)	CodeCode Available	1
Contrastive Energy Prediction for Exact Energy-Guided Diffusion Sampling in Offline Reinforcement Learning	Apr 25, 2023	D4RLImage Generation	CodeCode Available	1
Efficient Reinforcement Learning in Block MDPs: A Model-free Representation Learning Approach	Jan 31, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	1
Adaptive Behavior Cloning Regularization for Stable Offline-to-Online Reinforcement Learning	Oct 25, 2022	D4RLOffline RL	CodeCode Available	1
Efficient Risk-Averse Reinforcement Learning	May 10, 2022	Autonomous Drivingreinforcement-learning	CodeCode Available	1
A Modular Framework for Reinforcement Learning Optimal Execution	Aug 11, 2022	Algorithmic Tradingreinforcement-learning	CodeCode Available	1
AI-Driven Day-to-Day Route Choice	Dec 4, 2024	Decision MakingReinforcement Learning (RL)	CodeCode Available	1
Conservative Q-Learning for Offline Reinforcement Learning	Jun 8, 2020	continuous-controlContinuous Control	CodeCode Available	1
Conservative Offline Distributional Reinforcement Learning	Jul 12, 2021	D4RLDistributional Reinforcement Learning	CodeCode Available	1
Emergence of Locomotion Behaviours in Rich Environments	Jul 7, 2017	reinforcement-learningReinforcement Learning	CodeCode Available	1
Emergent behavior and neural dynamics in artificial agents tracking turbulent plumes	Sep 25, 2021	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Emergent Real-World Robotic Skills via Unsupervised Off-Policy Reinforcement Learning	Apr 27, 2020	Model Predictive Controlreinforcement-learning	CodeCode Available	1
Zero-Shot Reinforcement Learning from Low Quality Data	Sep 26, 2023	Offline RLreinforcement-learning	CodeCode Available	1
Connecting Deep-Reinforcement-Learning-based Obstacle Avoidance with Conventional Global Planners using Waypoint Generators	Apr 8, 2021	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Randomized Entity-wise Factorization for Multi-Agent Reinforcement Learning	Jun 7, 2020	counterfactualMulti-agent Reinforcement Learning	CodeCode Available	1
Energy-Based Imitation Learning	Apr 20, 2020	Imitation Learningreinforcement-learning	CodeCode Available	1
Energy-Guided Diffusion Sampling for Offline-to-Online Reinforcement Learning	Jul 17, 2024	MuJoCoreinforcement-learning	CodeCode Available	1
ENERO: Efficient Real-Time WAN Routing Optimization with Deep Reinforcement Learning	Sep 22, 2021	Deep Reinforcement LearningGraph Neural Network	CodeCode Available	1
Enforcing Policy Feasibility Constraints through Differentiable Projection for Energy Optimization	May 19, 2021	Reinforcement Learning (RL)	CodeCode Available	1
Enhanced POET: Open-Ended Reinforcement Learning through Unbounded Invention of Learning Challenges and their Solutions	Mar 19, 2020	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available	1
Enhancement of a state-of-the-art RL-based detection algorithm for Massive MIMO radars	Dec 5, 2021	Reinforcement Learning (RL)	CodeCode Available	1
Conservative and Adaptive Penalty for Model-Based Safe Reinforcement Learning	Dec 14, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	1
Enhancing Graph Neural Network-based Fraud Detectors against Camouflaged Fraudsters	Aug 19, 2020	Anomaly DetectionFraud Detection	CodeCode Available	1
Reliable Conditioning of Behavioral Cloning for Offline Reinforcement Learning	Oct 11, 2022	Offline RLreinforcement-learning	CodeCode Available	1
Confidence Estimation Transformer for Long-term Renewable Energy Forecasting in Reinforcement Learning-based Power Grid Dispatching	Apr 10, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	1

Show:10 25 50

← PrevPage 17 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified