Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 13851–13900 of 15113 papers

Title	Date	Tasks	Status
Instance Weighted Incremental Evolution Strategies for Reinforcement Learning in Dynamic Environments	Oct 9, 2020	Incremental LearningQ-Learning	CodeCode Available
Deterministic Uncertainty Propagation for Improved Model-Based Offline Reinforcement Learning	Jun 6, 2024	reinforcement-learningReinforcement Learning	CodeCode Available
A Dual Reinforcement Learning Framework for Unsupervised Text Style Transfer	May 24, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Safety Augmented Value Estimation from Demonstrations (SAVED): Safe Deep Model-Based RL for Sparse Cost Robotic Tasks	May 31, 2019	Model-based Reinforcement Learningreinforcement-learning	CodeCode Available
DeLF: Designing Learning Environments with Foundation Models	Jan 17, 2024	Decision MakingReinforcement Learning (RL)	CodeCode Available
Amplifying the Imitation Effect for Reinforcement Learning of UCAV's Mission Execution	Jan 17, 2019	Imitation Learningreinforcement-learning	CodeCode Available
Extending Environments To Measure Self-Reflection In Reinforcement Learning	Oct 13, 2021	reinforcement-learningReinforcement Learning	CodeCode Available
Auto-Pipeline: Synthesizing Complex Data Pipelines By-Target Using Reinforcement Learning and Search	Jun 25, 2021	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
External Model Motivated Agents: Reinforcement Learning for Enhanced Environment Sampling	Jun 28, 2024	reinforcement-learningReinforcement Learning	CodeCode Available
Let's Play Again: Variability of Deep Reinforcement Learning Agents in Atari Environments	Apr 12, 2019	Atari GamesDeep Reinforcement Learning	CodeCode Available
Developing parsimonious ensembles using predictor diversity within a reinforcement learning framework	Feb 15, 2021	Diversityreinforcement-learning	CodeCode Available
Defending Observation Attacks in Deep Reinforcement Learning via Detection and Denoising	Jun 14, 2022	continuous-controlContinuous Control	CodeCode Available
Hierarchical Reinforcement Learning for Concurrent Discovery of Compound and Composable Policies	May 23, 2019	Hierarchical Reinforcement Learningreinforcement-learning	CodeCode Available
Development of a PPO-Reinforcement Learned Walking Tripedal Soft-Legged Robot using SOFA	Apr 12, 2025	Reinforcement Learning (RL)Robot Navigation	CodeCode Available
A Monte Carlo AIXI Approximation	Sep 4, 2009	General Reinforcement LearningOpen-Ended Question Answering	CodeCode Available
Learning to Compose Neural Networks for Question Answering	Jan 7, 2016	Question Answeringreinforcement-learning	CodeCode Available
Device Placement Optimization with Reinforcement Learning	Jun 13, 2017	Language ModelingLanguage Modelling	CodeCode Available
Dex: Incremental Learning for Complex Environments in Deep Reinforcement Learning	Jun 19, 2017	Continual LearningDeep Reinforcement Learning	CodeCode Available
Conservative Bayesian Model-Based Value Expansion for Offline Policy Optimization	Oct 7, 2022	continuous-controlContinuous Control	CodeCode Available
Extrapolating Beyond Suboptimal Demonstrations via Inverse Reinforcement Learning from Observations	Apr 12, 2019	Deep Reinforcement LearningImitation Learning	CodeCode Available
Learning to Solve Voxel Building Embodied Tasks from Pixels and Natural Language Instructions	Nov 1, 2022	Language ModelingLanguage Modelling	CodeCode Available
Conservative and Risk-Aware Offline Multi-Agent Reinforcement Learning	Feb 13, 2024	Multi-agent Reinforcement LearningQ-Learning	CodeCode Available
Imitating from auxiliary imperfect demonstrations via Adversarial Density Weighted Regression	May 28, 2024	Imitation LearningMuJoCo	CodeCode Available
Deep W-Networks: Solving Multi-Objective Optimisation Problems With Deep Reinforcement Learning	Nov 9, 2022	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Deep Visual Foresight for Planning Robot Motion	Oct 3, 2016	Model-based Reinforcement LearningModel Predictive Control	CodeCode Available
Policy Iterations for Reinforcement Learning Problems in Continuous Time and Space -- Fundamental Theory and Methods	May 9, 2017	Decision MakingQ-Learning	CodeCode Available
DHER: Hindsight Experience Replay for Dynamic Goals	May 1, 2019	Object TrackingReinforcement Learning	CodeCode Available
Deep Variation-structured Reinforcement Learning for Visual Relationship and Attribute Detection	Mar 8, 2017	Attributeimage-classification	CodeCode Available
Diagnosing Bottlenecks in Deep Q-learning Algorithms	Feb 26, 2019	continuous-controlContinuous Control	CodeCode Available
A Model-Based Reinforcement Learning with Adversarial Training for Online Recommendation	Dec 1, 2019	Generative Adversarial NetworkModel-based Reinforcement Learning	CodeCode Available
Learning to Control Autonomous Fleets from Observation via Offline Reinforcement Learning	Feb 28, 2023	Offline RLreinforcement-learning	CodeCode Available
Dialog-based Interactive Image Retrieval	May 1, 2018	Image Retrievalreinforcement-learning	CodeCode Available
MEDIRL: Predicting the Visual Attention of Drivers via Maximum Entropy Deep Inverse Reinforcement Learning	Dec 17, 2019	Autonomous Vehiclesreinforcement-learning	CodeCode Available
Deep Variational Reinforcement Learning for POMDPs	Jun 6, 2018	Decision MakingInductive Bias	CodeCode Available
Dialogue Generation: From Imitation Learning to Inverse Reinforcement Learning	Dec 9, 2018	Dialogue GenerationImitation Learning	CodeCode Available
Deep Transfer Reinforcement Learning for Text Summarization	Oct 15, 2018	reinforcement-learningReinforcement Learning	CodeCode Available
Dialogue Learning with Human Teaching and Feedback in End-to-End Trainable Task-Oriented Dialogue Systems	Apr 18, 2018	Dialogue State TrackingImitation Learning	CodeCode Available
Learning Invariances for Policy Generalization	Sep 7, 2018	BIG-bench Machine LearningData Augmentation	CodeCode Available
Approximately Optimal Search on a Higher-dimensional Sliding Puzzle	Dec 2, 2024	Reinforcement Learning (RL)	CodeCode Available
DeepTraffic: Crowdsourced Hyperparameter Tuning of Deep Reinforcement Learning Systems for Multi-Agent Dense Traffic Navigation	Jan 9, 2018	Autonomous DrivingAutonomous Navigation	CodeCode Available
Model-Based Reinforcement Learning with Adversarial Training for Online Recommendation	Nov 10, 2019	Generative Adversarial NetworkModel-based Reinforcement Learning	CodeCode Available
Autonomous Soft Tissue Retraction Using Demonstration-Guided Reinforcement Learning	Sep 2, 2023	reinforcement-learningReinforcement Learning	CodeCode Available
Did we personalize? Assessing personalization by an online reinforcement learning algorithm using resampling	Apr 11, 2023	Decision MakingReinforcement Learning (RL)	CodeCode Available
Learning to Steer Markovian Agents under Model Uncertainty	Jul 14, 2024	Reinforcement Learning (RL)	CodeCode Available
Hierarchical Reinforcement Learning for Zero-shot Generalization with Subtask Dependencies	Jul 19, 2018	Hierarchical Reinforcement LearningNetwork Embedding	CodeCode Available
Adjust Planning Strategies to Accommodate Reinforcement Learning Agents	Mar 19, 2020	reinforcement-learningReinforcement Learning	CodeCode Available
Learning to Control in Metric Space with Optimal Regret	May 5, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Integrating Contrastive Learning with Dynamic Models for Reinforcement Learning from Images	Mar 2, 2022	Contrastive LearningData Augmentation	CodeCode Available
Applying Deep Reinforcement Learning to the HP Model for Protein Structure Prediction	Nov 27, 2022	Deep Reinforcement LearningProtein Folding	CodeCode Available
Hierarchical Reinforcement Learning via Advantage-Weighted Information Maximization	Jan 5, 2019	continuous-controlContinuous Control	CodeCode Available

Show:10 25 50

← PrevPage 278 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified