Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 15001–15050 of 15113 papers

Title	Date	Tasks	Status
A Regularized Opponent Model with Maximum Entropy Objective	May 17, 2019	modelMulti-agent Reinforcement Learning	CodeCode Available
G-PECNet: Towards a Generalizable Pedestrian Trajectory Prediction System	Oct 15, 2022	Autonomous VehiclesData Augmentation	CodeCode Available
Analyzing Reinforcement Learning Benchmarks with Random Weight Guessing	Apr 16, 2020	OpenAI Gymreinforcement-learning	CodeCode Available
Explainable Reinforcement Learning Through a Causal Lens	May 27, 2019	counterfactualreinforcement-learning	CodeCode Available
Learning Goal Embeddings via Self-Play for Hierarchical Reinforcement Learning	Nov 22, 2018	Hierarchical Reinforcement LearningMuJoCo	CodeCode Available
Continual Reinforcement Learning in 3D Non-stationary Environments	May 24, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Explainable Reinforcement Learning via Model Transforms	Sep 24, 2022	Decision Makingmodel	CodeCode Available
ARCHER: Aggressive Rewards to Counter bias in Hindsight Experience Replay	Sep 6, 2018	continuous-controlContinuous Control	CodeCode Available
Left Ventricle Contouring in Cardiac Images Based on Deep Reinforcement Learning	Jun 8, 2021	Deep Reinforcement LearningImage Segmentation	CodeCode Available
Just Round: Quantized Observation Spaces Enable Memory Efficient Learning of Dynamic Locomotion	Oct 14, 2022	Deep Reinforcement LearningQuantization	CodeCode Available
Continual Reinforcement Learning for HVAC Systems Control: Integrating Hypernetworks and Transfer Learning	Mar 24, 2025	Continual LearningDeep Reinforcement Learning	CodeCode Available
Learning Goal-Oriented Visual Dialog via Tempered Policy Gradient	Jul 2, 2018	Deep Reinforcement LearningPolicy Gradient Methods	CodeCode Available
Analysis and Control of a Planar Quadrotor	Jun 29, 2021	Positionreinforcement-learning	CodeCode Available
MAP Propagation Algorithm: Faster Learning with a Team of Reinforcement Learning Agents	Oct 15, 2020	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Explaining Reinforcement Learning Policies through Counterfactual Trajectories	Jan 29, 2022	counterfactualDecision Making	CodeCode Available
HAMMER: Multi-Level Coordination of Reinforcement Learning Agents via Learned Messaging	Jan 18, 2021	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available
Explaining RL Decisions with Trajectories	May 6, 2023	Attributecontinuous-control	CodeCode Available
Explain Your Move: Understanding Agent Actions Using Focused Feature Saliency	May 1, 2020	Atari GamesBoard Games	CodeCode Available
Explain Your Move: Understanding Agent Actions Using Specific and Relevant Feature Attribution	Dec 23, 2019	Atari GamesBoard Games	CodeCode Available
Continual Policy Distillation of Reinforcement Learning-based Controllers for Soft Robotic In-Hand Manipulation	Apr 5, 2024	Reinforcement Learning (RL)	CodeCode Available
A Centralised Soft Actor Critic Deep Reinforcement Learning Approach to District Demand Side Management through CityLearn	Sep 22, 2020	Deep Reinforcement LearningManagement	CodeCode Available
Explanation-Aware Experience Replay in Rule-Dense Environments	Sep 29, 2021	Autonomous DrivingReinforcement Learning (RL)	CodeCode Available
Handling Delay in Real-Time Reinforcement Learning	Mar 30, 2025	MuJoCoreinforcement-learning	CodeCode Available
Explicable Reward Design for Reinforcement Learning Agents	Dec 1, 2021	Informativenessreinforcement-learning	CodeCode Available
Explicit Explore-Exploit Algorithms in Continuous State Spaces	Nov 1, 2019	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Learning to Bid Long-Term: Multi-Agent Reinforcement Learning with Long-Term and Sparse Reward in Repeated Auction Games	Apr 5, 2022	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available
Learning Graph-Enhanced Commander-Executor for Multi-Agent Navigation	Feb 8, 2023	Hierarchical Reinforcement LearningMulti-agent Reinforcement Learning	CodeCode Available
An agentic system with reinforcement-learned subsystem improvements for parsing form-like documents	May 16, 2025	FormLanguage Modeling	CodeCode Available
Adaptive Data Exploitation in Deep Reinforcement Learning	Jan 22, 2025	Computational EfficiencyDeep Reinforcement Learning	CodeCode Available
Hard Prompts Made Interpretable: Sparse Entropy Regularization for Prompt Tuning with RL	Jul 20, 2024	Few-Shot Text ClassificationQ-Learning	CodeCode Available
Adversarial Learning for Neural Dialogue Generation	Jan 23, 2017	Dialogue EvaluationDialogue Generation	CodeCode Available
Adversarial Intrinsic Motivation for Reinforcement Learning	May 27, 2021	Multi-Goal Reinforcement Learningreinforcement-learning	CodeCode Available
BAIL: Best-Action Imitation Learning for Batch Deep Reinforcement Learning	Oct 27, 2019	Deep Reinforcement LearningImitation Learning	CodeCode Available
Learning Heuristics for Quantified Boolean Formulas through Deep Reinforcement Learning	Jul 20, 2018	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Combining imagination and heuristics to learn strategies that generalize	Sep 10, 2018	Deep Reinforcement LearningHierarchical Reinforcement Learning	CodeCode Available
KEHRL: Learning Knowledge-Enhanced Language Representations with Hierarchical Reinforcement Learning	Jun 24, 2024	Hierarchical Reinforcement LearningKnowledge Graphs	CodeCode Available
Adaptive Curriculum Generation from Demonstrations for Sim-to-Real Visuomotor Control	Oct 17, 2019	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Data Augmentation through Expert-guided Symmetry Detection to Improve Performance in Offline Reinforcement Learning	Dec 18, 2021	Data AugmentationDensity Estimation	CodeCode Available
Understanding the Effects of Second-Order Approximations in Natural Policy Gradient Reinforcement Learning	Jan 22, 2022	Policy Gradient Methodsreinforcement-learning	CodeCode Available
BadRL: Sparse Targeted Backdoor Attack Against Reinforcement Learning	Dec 19, 2023	Backdoor Attackreinforcement-learning	CodeCode Available
Baconian: A Unified Open-source Framework for Model-Based Reinforcement Learning	Apr 23, 2019	Autonomous DrivingModel-based Reinforcement Learning	CodeCode Available
Harnessing Structures for Value-Based Planning and Reinforcement Learning	Sep 26, 2019	Atari GamesDeep Reinforcement Learning	CodeCode Available
Continual Learning In Environments With Polynomial Mixing Times	Dec 13, 2021	Atari GamesContinual Learning	CodeCode Available
Kernel Density Bayesian Inverse Reinforcement Learning	Mar 13, 2023	BIRLDensity Estimation	CodeCode Available
Learning to search efficiently for causally near-optimal treatments	Jul 2, 2020	Causal InferenceReinforcement Learning (RL)	CodeCode Available
Continual Diffuser (CoD): Mastering Continual Offline Reinforcement Learning with Experience Rehearsal	Sep 4, 2024	Reinforcement Learning (RL)	CodeCode Available
Exploiting Multiple Abstractions in Episodic RL via Reward Shaping	Feb 28, 2023	Reinforcement Learning (RL)	CodeCode Available
Inferring Behavior-Specific Context Improves Zero-Shot Generalization in Reinforcement Learning	Apr 15, 2024	reinforcement-learningReinforcement Learning	CodeCode Available
ARAML: A Stable Adversarial Training Framework for Text Generation	Aug 20, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Kernel Metric Learning for In-Sample Off-Policy Evaluation of Deterministic RL Policies	May 29, 2024	Metric LearningOff-policy evaluation	CodeCode Available

Show:10 25 50

← PrevPage 301 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified