Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 14651–14700 of 15113 papers

Title	Date	Tasks	Status
Learning State Abstractions for Transfer in Continuous Control	Feb 8, 2020	continuous-controlContinuous Control	CodeCode Available
Knowledge Transfer in Deep Reinforcement Learning via an RL-Specific GAN-Based Correspondence Function	Sep 14, 2022	Decision MakingDeep Reinforcement Learning	CodeCode Available
An Empirical Study of Deep Reinforcement Learning in Continuing Tasks	Jan 12, 2025	Deep Reinforcement LearningMuJoCo	CodeCode Available
Improving Automatic Source Code Summarization via Deep Reinforcement Learning	Nov 17, 2018	Code SummarizationDecoder	CodeCode Available
A Simple, Fast Diverse Decoding Algorithm for Neural Generation	Nov 25, 2016	Abstractive Text SummarizationDiversity	CodeCode Available
Empirical Study of Off-Policy Policy Evaluation for Reinforcement Learning	Nov 15, 2019	BenchmarkingDiversity	CodeCode Available
Bootstrap State Representation using Style Transfer for Better Generalization in Deep Reinforcement Learning	Jul 15, 2022	Data AugmentationDeep Reinforcement Learning	CodeCode Available
Empowering recommender systems using automatically generated Knowledge Graphs and Reinforcement Learning	Jul 11, 2023	Decision MakingKnowledge Graphs	CodeCode Available
Empowerment-driven Exploration using Mutual Information Estimation	Oct 11, 2018	Deep Reinforcement LearningMontezuma's Revenge	CodeCode Available
A2-RL: Aesthetics Aware Reinforcement Learning for Image Cropping	Sep 14, 2017	Decision MakingImage Cropping	CodeCode Available
Improving Coordination in Small-Scale Multi-Agent Deep Reinforcement Learning through Memory-driven Communication	Jan 12, 2019	Deep Reinforcement LearningReinforcement Learning	CodeCode Available
Enabling Adaptive Agent Training in Open-Ended Simulators by Targeting Diversity	Nov 7, 2024	DiversityMeta Reinforcement Learning	CodeCode Available
A General, Evolution-Inspired Reward Function for Social Robotics	Feb 1, 2022	Cultural Vocal Bursts Intensity PredictionImitation Learning	CodeCode Available
A Self-Adaptive Proposal Model for Temporal Action Detection based on Reinforcement Learning	Jun 22, 2017	Action DetectionPosition	CodeCode Available
Curiosity Killed or Incapacitated the Cat and the Asymptotically Optimal Agent	Jun 5, 2020	reinforcement-learningReinforcement Learning	CodeCode Available
On the Expressivity of Neural Networks for Deep Reinforcement Learning	Oct 14, 2019	Deep Reinforcement LearningMuJoCo	CodeCode Available
Improving Deep Reinforcement Learning by Reducing the Chain Effect of Value and Policy Churn	Sep 7, 2024	Deep Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Curiosity-Driven Multi-Criteria Hindsight Experience Replay	Jun 9, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
IRLAS: Inverse Reinforcement Learning for Architecture Search	Dec 13, 2018	Neural Architecture Searchreinforcement-learning	CodeCode Available
Improving Dialogue Management: Quality Datasets vs Models	Oct 2, 2023	Dialog LearningDialogue Management	CodeCode Available
GEP-PG: Decoupling Exploration and Exploitation in Deep Reinforcement Learning Algorithms	Feb 14, 2018	Deep Reinforcement LearningDiversity	CodeCode Available
CUP: A Conservative Update Policy Algorithm for Safe Reinforcement Learning	Feb 15, 2022	reinforcement-learningReinforcement Learning	CodeCode Available
Iroko: A Framework to Prototype Reinforcement Learning for Data Center Traffic Control	Dec 24, 2018	Deep Reinforcement LearningOpenAI Gym	CodeCode Available
Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment	May 28, 2024	reinforcement-learningReinforcement Learning	CodeCode Available
Improving Environment Robustness of Deep Reinforcement Learning Approaches for Autonomous Racing Using Bayesian Optimization-based Curriculum Learning	Dec 16, 2023	Autonomous DrivingAutonomous Racing	CodeCode Available
End-to-end grasping policies for human-in-the-loop robots via deep reinforcement learning	Apr 26, 2021	Deep Reinforcement LearningElectromyography (EMG)	CodeCode Available
GFlowNets and variational inference	Oct 2, 2022	DiversityReinforcement Learning (RL)	CodeCode Available
End-to-End Learning of Communications Systems Without a Channel Model	Apr 6, 2018	reinforcement-learningReinforcement Learning	CodeCode Available
Learning of feature points without additional supervision improves reinforcement learning from images	Jun 15, 2021	Continuous Controlreinforcement-learning	CodeCode Available
GFlowNet Training by Policy Gradients	Aug 12, 2024	Reinforcement Learning (RL)	CodeCode Available
Improving Experience Replay through Modeling of Similar Transitions' Sets	Nov 12, 2021	Atari Gamesreinforcement-learning	CodeCode Available
End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes	May 25, 2023	Bayesian OptimisationInductive Bias	CodeCode Available
End-to-End Model-Free Reinforcement Learning for Urban Driving using Implicit Affordances	Nov 25, 2019	Autonomous Drivingreinforcement-learning	CodeCode Available
Bootstrapped Q-learning with Context Relevant Observation Pruning to Generalize in Text-based Games	Sep 24, 2020	Q-LearningReinforcement Learning (RL)	CodeCode Available
GHQ: Grouped Hybrid Q Learning for Heterogeneous Cooperative Multi-agent Reinforcement Learning	Mar 2, 2023	Multi-agent Reinforcement LearningQ-Learning	CodeCode Available
Gifting in multi-agent reinforcement learning	May 5, 2020	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available
Bootstrap Advantage Estimation for Policy Optimization in Reinforcement Learning	Oct 13, 2022	Data Augmentationreinforcement-learning	CodeCode Available
Improving Exploration in Evolution Strategies for Deep Reinforcement Learning via a Population of Novelty-Seeking Agents	Dec 18, 2017	Deep Reinforcement LearningPolicy Gradient Methods	CodeCode Available
End-to-End Reinforcement Learning for Automatic Taxonomy Induction	May 10, 2018	reinforcement-learningReinforcement Learning	CodeCode Available
End-to-End Reinforcement Learning for Torque Based Variable Height Hopping	Jul 31, 2023	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
Improving Exploration in Soft-Actor-Critic with Normalizing Flows Policies	Jun 6, 2019	Deep Reinforcement LearningReinforcement Learning	CodeCode Available
End-to-End Robotic Reinforcement Learning without Reward Engineering	Apr 16, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
End-to-End Safe Reinforcement Learning through Barrier Functions for Safety-Critical Continuous Control Tasks	Mar 21, 2019	continuous-controlContinuous Control	CodeCode Available
CTD4 -- A Deep Continuous Distributional Actor-Critic Agent with a Kalman Fusion of Multiple Critics	May 4, 2024	continuous-controlContinuous Control	CodeCode Available
End-to-End Video Captioning with Multitask Reinforcement Learning	Mar 21, 2018	GPUreinforcement-learning	CodeCode Available
A general class of surrogate functions for stable and efficient reinforcement learning	Aug 12, 2021	MuJoCoPolicy Gradient Methods	CodeCode Available
"Give Me an Example Like This": Episodic Active Reinforcement Learning from Demonstrations	Jun 5, 2024	Active LearningReinforcement Learning (RL)	CodeCode Available
Boosting Reinforcement Learning with Strongly Delayed Feedback Through Auxiliary Short Delays	Feb 5, 2024	reinforcement-learningReinforcement Learning	CodeCode Available
Learning-Driven Exploration for Reinforcement Learning	Jun 17, 2019	Efficient ExplorationFPS Games	CodeCode Available
Energy-Based Hindsight Experience Prioritization	Oct 2, 2018	reinforcement-learningReinforcement Learning	CodeCode Available

Show:10 25 50

← PrevPage 294 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified