Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 14401–14450 of 15113 papers

Title	Date	Tasks	Status
Dynamic Weights in Multi-Objective Deep Reinforcement Learning	Sep 20, 2018	Deep Reinforcement LearningMulti-Objective Reinforcement Learning	CodeCode Available
Asynchronous Methods for Model-Based Reinforcement Learning	Oct 28, 2019	modelModel-based Reinforcement Learning	CodeCode Available
Illuminating Generalization in Deep Reinforcement Learning through Procedural Level Generation	Jun 28, 2018	ClusteringDeep Reinforcement Learning	CodeCode Available
Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning	Jan 18, 2018	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
An Intrusion Response System utilizing Deep Q-Networks and System Partitions	Feb 16, 2022	Reinforcement Learning (RL)Transfer Learning	CodeCode Available
Deep Coordination Graphs	Sep 27, 2019	Multi-agent Reinforcement LearningQ-Learning	CodeCode Available
Deep Bayesian Bandits Showdown: An Empirical Comparison of Bayesian Deep Networks for Thompson Sampling	Feb 26, 2018	Decision MakingDeep Reinforcement Learning	CodeCode Available
Multi-Horizon Representations with Hierarchical Forward Models for Reinforcement Learning	Jun 22, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
DeepAveragers: Offline Reinforcement Learning by Solving Derived Non-Parametric MDPs	Oct 18, 2020	Offline RLreinforcement-learning	CodeCode Available
Fully Convolutional Network with Multi-Step Reinforcement Learning for Image Processing	Nov 10, 2018	DenoisingImage Denoising	CodeCode Available
Deep Attention Recurrent Q-Network	Dec 5, 2015	Atari GamesDeep Attention	CodeCode Available
Asynchronous Episodic Deep Deterministic Policy Gradient: Towards Continuous Control in Computationally Complex Environments	Mar 3, 2019	continuous-controlContinuous Control	CodeCode Available
ε-BMC: A Bayesian Ensemble Approach to Epsilon-Greedy Exploration in Model-Free Reinforcement Learning	Jul 2, 2020	Reinforcement Learning (RL)	CodeCode Available
Deep Adaptive Multi-Intention Inverse Reinforcement Learning	Jul 14, 2021	reinforcement-learningReinforcement Learning	CodeCode Available
Challenges of Context and Time in Reinforcement Learning: Introducing Space Fortress as a Benchmark	Sep 6, 2018	Atari GamesDeep Reinforcement Learning	CodeCode Available
Active One-shot Learning	Feb 21, 2017	ClassificationGeneral Classification	CodeCode Available
Learning and reusing primitive behaviours to improve Hindsight Experience Replay sample efficiency	Oct 3, 2023	Reinforcement Learning (RL)	CodeCode Available
Fully Parameterized Quantile Function for Distributional Reinforcement Learning	Nov 5, 2019	Atari GamesDistributional Reinforcement Learning	CodeCode Available
Functional Acceleration for Policy Mirror Descent	Jul 23, 2024	Reinforcement Learning (RL)	CodeCode Available
Active Object Localization with Deep Reinforcement Learning	Nov 18, 2015	Active Object LocalizationDeep Reinforcement Learning	CodeCode Available
Challenges in High-dimensional Reinforcement Learning with Evolution Strategies	Jun 4, 2018	reinforcement-learningReinforcement Learning	CodeCode Available
A Survey on Reproducibility by Evaluating Deep Reinforcement Learning Algorithms on Real-World Robots	Sep 9, 2019	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Actively Learning Costly Reward Functions for Reinforcement Learning	Nov 23, 2022	Active LearningDeep Reinforcement Learning	CodeCode Available
Challenges and Countermeasures for Adversarial Attacks on Deep Reinforcement Learning	Jan 27, 2020	Autonomous VehiclesDeep Reinforcement Learning	CodeCode Available
CGAR: Critic Guided Action Redistribution in Reinforcement Leaning	Jun 23, 2022	MuJoCoReinforcement Learning (RL)	CodeCode Available
Deep Active Inference as Variational Policy Gradients	Jul 8, 2019	Bayesian Inferencereinforcement-learning	CodeCode Available
Decoupling regularization from the action space	Jun 10, 2024	Reinforcement Learning (RL)	CodeCode Available
Long-Term Exploration in Persistent MDPs	Sep 21, 2021	Reinforcement Learning (RL)	CodeCode Available
Learning to Navigate Using Mid-Level Visual Priors	Dec 23, 2019	Navigatereinforcement-learning	CodeCode Available
Learning Approximate Stochastic Transition Models	Oct 26, 2017	Model-based Reinforcement Learningreinforcement-learning	CodeCode Available
Decoupling feature extraction from policy learning: assessing benefits of state representation learning in goal based robotics	Jan 24, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Decoupling Dynamics and Reward for Transfer Learning	Apr 27, 2018	reinforcement-learningReinforcement Learning	CodeCode Available
CFlowNets: Continuous Control with Generative Flow Networks	Mar 4, 2023	Active Learningcontinuous-control	CodeCode Available
Imagination-Augmented Agents for Deep Reinforcement Learning	Jul 19, 2017	Deep Reinforcement LearningModel-based Reinforcement Learning	CodeCode Available
Learning Reward Machines for Partially Observable Reinforcement Learning	Dec 1, 2019	Partially Observable Reinforcement LearningProblem Decomposition	CodeCode Available
A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open Problems	Mar 2, 2022	Offline RLreinforcement-learning	CodeCode Available
Learning Reward Models for Cooperative Trajectory Planning with Inverse Reinforcement Learning and Monte Carlo Tree Search	Feb 14, 2022	Decision Makingreinforcement-learning	CodeCode Available
Deconfounding Reinforcement Learning in Observational Settings	Dec 26, 2018	OpenAI Gymreinforcement-learning	CodeCode Available
AgGym: An agricultural biotic stress simulation environment for ultra-precision management planning	Sep 1, 2024	Deep Reinforcement LearningManagement	CodeCode Available
Fuzzy Logic Guided Reward Function Variation: An Oracle for Testing Reinforcement Learning Programs	Jun 28, 2024	Reinforcement Learning (RL)	CodeCode Available
Deconfounding Actor-Critic Network with Policy Adaptation for Dynamic Treatment Regimes	May 19, 2022	Reinforcement Learning (RL)	CodeCode Available
Certified Policy Smoothing for Cooperative Multi-Agent Reinforcement Learning	Dec 22, 2022	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available
Imagining In-distribution States: How Predictable Robot Behavior Can Enable User Control Over Learned Policies	Jun 19, 2024	Reinforcement Learning (RL)	CodeCode Available
GAC: A Deep Reinforcement Learning Model Toward User Incentivization in Unknown Social Networks	Mar 17, 2022	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Certification of Iterative Predictions in Bayesian Neural Networks	May 21, 2021	Reinforcement Learning (RL)	CodeCode Available
Centralized Training with Hybrid Execution in Multi-Agent Reinforcement Learning	Oct 12, 2022	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available
Toward Evaluating Robustness of Reinforcement Learning with Adversarial Policy	May 4, 2023	reinforcement-learningReinforcement Learning	CodeCode Available
Effects of Spectral Normalization in Multi-agent Reinforcement Learning	Dec 10, 2022	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available
Imitate the Good and Avoid the Bad: An Incremental Approach to Safe Reinforcement Learning	Dec 16, 2023	Reinforcement Learning (RL)Safe Reinforcement Learning	CodeCode Available
Adaptive Symmetric Reward Noising for Reinforcement Learning	May 24, 2019	Autonomous DrivingQ-Learning	CodeCode Available

Show:10 25 50

← PrevPage 289 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified