Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 13801–13850 of 15113 papers

Title	Date	Tasks	Status
Prosocial learning agents solve generalized Stag Hunts better than selfish ones	Sep 8, 2017	Deep Reinforcement LearningMulti-agent Reinforcement Learning	CodeCode Available
Meta Reinforcement Learning with Finite Training Tasks -- a Density Estimation Approach	Jun 21, 2022	Density EstimationDimensionality Reduction	CodeCode Available
Deployable Reinforcement Learning with Variable Control Rate	Jan 17, 2024	reinforcement-learningReinforcement Learning	CodeCode Available
Action-Decision Networks for Visual Tracking With Deep Reinforcement Learning	Jul 1, 2017	Deep Reinforcement LearningGPU	CodeCode Available
A2PO: Towards Effective Offline Reinforcement Learning from an Advantage-aware Perspective	Mar 12, 2024	D4RLreinforcement-learning	CodeCode Available
Dependability Analysis of Deep Reinforcement Learning based Robotics and Autonomous Systems through Probabilistic Model Checking	Sep 14, 2021	Deep Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
DenseLight: Efficient Control for Large-scale Traffic Signals with Dense Feedback	Jun 13, 2023	Deep Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Learning to Communicate Functional States with Nonverbal Expressions for Improved Human-Robot Collaboration	Apr 30, 2024	Reinforcement Learning (RL)	CodeCode Available
Exploring Natural Language-Based Strategies for Efficient Number Learning in Children through Reinforcement Learning	Oct 10, 2024	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Exploring Parity Challenges in Reinforcement Learning through Curriculum Learning with Noisy Labels	Dec 8, 2023	Learning with noisy labelsReinforcement Learning (RL)	CodeCode Available
Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards	Oct 22, 2024	reinforcement-learningReinforcement Learning	CodeCode Available
A view on learning robust goal-conditioned value functions: Interplay between RL and MPC	Feb 10, 2025	Model Predictive ControlReinforcement Learning (RL)	CodeCode Available
Constrained Policy Optimization	May 30, 2017	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Input Convex Neural Networks	Sep 22, 2016	ImputationInference Optimization	CodeCode Available
Constrained Exploration and Recovery from Experience Shaping	Sep 21, 2018	reinforcement-learningReinforcement Learning	CodeCode Available
Exploring the Impact of Tunable Agents in Sequential Social Dilemmas	Jan 28, 2021	Multi-Objective Reinforcement Learningreinforcement-learning	CodeCode Available
Conservative Q-Improvement: Reinforcement Learning for an Interpretable Decision-Tree Policy	Jul 2, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Active inference: demystified and compared	Sep 24, 2019	Atari GamesOpenAI Gym	CodeCode Available
AutoRL Hyperparameter Landscapes	Apr 5, 2023	AutoMLHyperparameter Optimization	CodeCode Available
Autoregressive Policies for Continuous Control Deep Reinforcement Learning	Mar 27, 2019	continuous-controlContinuous Control	CodeCode Available
Exploring the Training Robustness of Distributional Reinforcement Learning against Noisy State Observations	Sep 17, 2021	Density EstimationDistributional Reinforcement Learning	CodeCode Available
IN-RIL: Interleaved Reinforcement and Imitation Learning for Policy Fine-Tuning	May 15, 2025	Efficient ExplorationImitation Learning	CodeCode Available
Exploring the robustness of TractOracle methods in RL-based tractography	Jul 15, 2025	Diffusion MRIreinforcement-learning	CodeCode Available
Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents	Feb 6, 2024	continuous-controlContinuous Control	CodeCode Available
Insights From the NeurIPS 2021 NetHack Challenge	Mar 22, 2022	NetHackReinforcement Learning (RL)	CodeCode Available
Lessons learned from field demonstrations of model predictive control and reinforcement learning for residential and commercial HVAC: A review	Mar 6, 2025	Model Predictive ControlReinforcement Learning (RL)	CodeCode Available
Exploring Unknown States with Action Balance	Mar 10, 2020	Atari GamesDeep Reinforcement Learning	CodeCode Available
Designing Neural Network Architectures using Reinforcement Learning	Nov 7, 2016	General Classificationimage-classification	CodeCode Available
Exploring with Sticky Mittens: Reinforcement Learning with Expert Interventions via Option Templates	Feb 25, 2022	reinforcement-learningReinforcement Learning	CodeCode Available
Hierarchically Structured Task-Agnostic Continual Learning	Nov 14, 2022	Continual Learningreinforcement-learning	CodeCode Available
Designing Reinforcement Learning Algorithms for Digital Interventions: Pre-implementation Guidelines	Jun 8, 2022	reinforcement-learningReinforcement Learning	CodeCode Available
Exponential Family Model-Based Reinforcement Learning via Score Matching	Dec 28, 2021	Density EstimationModel-based Reinforcement Learning	CodeCode Available
Hierarchical Meta Reinforcement Learning for Multi-Task Environments	Jan 1, 2021	Deep Reinforcement LearningHierarchical Reinforcement Learning	CodeCode Available
Approximate Model-Based Shielding for Safe Reinforcement Learning	Jul 27, 2023	Atari Gamesmodel	CodeCode Available
Multi-task Learning and Catastrophic Forgetting in Continual Reinforcement Learning	Sep 22, 2019	Continual LearningDeep Reinforcement Learning	CodeCode Available
Hierarchical Object Detection with Deep Reinforcement Learning	Nov 11, 2016	Deep Reinforcement LearningObject	CodeCode Available
Instance based Generalization in Reinforcement Learning	Nov 2, 2020	Deep Reinforcement LearningGeneralization Bounds	CodeCode Available
Delta Schema Network in Model-based Reinforcement Learning	Jun 17, 2020	Model-based Reinforcement Learningreinforcement-learning	CodeCode Available
Learning to Communicate with Deep Multi-Agent Reinforcement Learning	May 21, 2016	Multi-agent Reinforcement LearningQ-Learning	CodeCode Available
Conservative Optimistic Policy Optimization via Multiple Importance Sampling	Mar 4, 2021	Atari GamesGame of Go	CodeCode Available
Detecting Adversarial Attacks on Neural Network Policies with Visual Foresight	Oct 2, 2017	Autonomous VehiclesDecision Making	CodeCode Available
Accuracy-based Curriculum Learning in Deep Reinforcement Learning	Jun 25, 2018	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
A Multi-Agent Off-Policy Actor-Critic Algorithm for Distributed Reinforcement Learning	Mar 15, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Expressive Priors in Bayesian Neural Networks: Kernel Combinations and Periodic Functions	May 15, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Action-Conditional Video Prediction using Deep Networks in Atari Games	Jul 31, 2015	Atari GamesReinforcement Learning	CodeCode Available
Detecting Spiky Corruption in Markov Decision Processes	Jun 30, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Instance Selection for Dynamic Algorithm Configuration with Reinforcement Learning: Improving Generalization	Jul 18, 2024	Deep Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Extended Markov Games to Learn Multiple Tasks in Multi-Agent Reinforcement Learning	Feb 14, 2020	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available
Deterministic Implementations for Reproducibility in Deep Reinforcement Learning	Sep 15, 2018	Deep Reinforcement LearningQ-Learning	CodeCode Available
Deterministic Policy Gradient Algorithms	Jun 22, 2014	Formreinforcement-learning	CodeCode Available

Show:10 25 50

← PrevPage 277 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified