Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2801–2850 of 15113 papers

Title	Date	Tasks	Status
Data-efficient visuomotor policy training using reinforcement learning and generative models	Jul 26, 2020	Decision MakingDisentanglement	—Unverified
Data Sharing without Rewards in Multi-Task Offline Reinforcement Learning	Sep 29, 2021	Multi-Task LearningOffline RL	—Unverified
Modified DDPG car-following model with a real-world human driving experience with CARLA simulator	Dec 29, 2021	Autonomous DrivingDeep Reinforcement Learning	—Unverified
AutoEG: Automated Experience Grafting for Off-Policy Deep Reinforcement Learning	Apr 22, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
AutoDOViz: Human-Centered Automation for Decision Optimization	Feb 19, 2023	AutoMLreinforcement-learning	—Unverified
A Learned Simulation Environment to Model Student Engagement and Retention in Automated Online Courses	Dec 22, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Auto Deep Compression by Reinforcement Learning Based Actor-Critic Structure	Jul 8, 2018	reinforcement-learningReinforcement Learning	—Unverified
AutoCost: Evolving Intrinsic Cost for Zero-violation Reinforcement Learning	Jan 24, 2023	Deep Reinforcement Learningreinforcement-learning	—Unverified
A Learned Simulation Environment to Model Plant Growth in Indoor Farming	Dec 6, 2022	reinforcement-learningReinforcement Learning	—Unverified
Adaptive Discounting of Training Time Attacks	Jan 5, 2024	Reinforcement Learning (RL)	—Unverified
Auto-COP: Adaptation Generation in Context-Oriented Programming using Reinforcement Learning Options	Mar 11, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
Achieving Fairness in Multi-Agent Markov Decision Processes Using Reinforcement Learning	Jun 1, 2023	FairnessOffline RL	—Unverified
Auto-Agent-Distiller: Towards Efficient Deep Reinforcement Learning Agents via Neural Architecture Search	Dec 24, 2020	Deep Reinforcement LearningNeural Architecture Search	—Unverified
A User Study on Explainable Online Reinforcement Learning for Adaptive Systems	Jul 9, 2023	reinforcement-learningReinforcement Learning (RL)	—Unverified
A bandit approach to curriculum generation for automatic speech recognition	Feb 6, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Data-Efficient Pipeline for Offline Reinforcement Learning with Limited Data	Oct 16, 2022	Model SelectionOffline RL	—Unverified
Adaptive Dialog Policy Learning with Hindsight and User Modeling	May 7, 2020	Reinforcement Learning (RL)	—Unverified
A Unifying View of Optimism in Episodic Reinforcement Learning	Jul 3, 2020	reinforcement-learningReinforcement Learning	—Unverified
ACES -- Automatic Configuration of Energy Harvesting Sensors with Reinforcement Learning	Sep 4, 2019	reinforcement-learningReinforcement Learning	—Unverified
A Unifying Framework for Action-Conditional Self-Predictive Reinforcement Learning	Jun 4, 2024	reinforcement-learningReinforcement Learning	—Unverified
A unified view of likelihood ratio and reparameterization gradients and an optimal importance sampling scheme	Oct 14, 2019	reinforcement-learningReinforcement Learning	—Unverified
A Law of Iterated Logarithm for Multi-Agent Reinforcement Learning	Oct 27, 2021	Decision MakingMulti-agent Reinforcement Learning	—Unverified
Data-Efficient Learning from Human Interventions for Mobile Robots	Mar 6, 2025	Imitation LearningReinforcement Learning (RL)	—Unverified
A unified view of entropy-regularized Markov decision processes	May 22, 2017	Policy Gradient Methodsreinforcement-learning	—Unverified
A unified uncertainty-aware exploration: Combining epistemic and aleatory uncertainty	Jan 5, 2024	Decision MakingReinforcement Learning (RL)	—Unverified
A unified strategy for implementing curiosity and empowerment driven reinforcement learning	Jun 18, 2018	reinforcement-learningReinforcement Learning	—Unverified
A Unified Perspective on Value Backup and Exploration in Monte-Carlo Tree Search	Feb 11, 2022	Atari GamesDecision Making	—Unverified
Adaptive Decision Making at the Intersection for Autonomous Vehicles Based on Skill Discovery	Jul 24, 2022	Autonomous DrivingAutonomous Vehicles	—Unverified
Data-Efficient Learning of Feedback Policies from Image Pixels using Deep Dynamical Models	Oct 8, 2015	Model-based Reinforcement LearningModel Predictive Control	—Unverified
Data-Efficient Quadratic Q-Learning Using LMIs	Sep 18, 2024	Q-LearningReinforcement Learning (RL)	—Unverified
A Unified Off-Policy Evaluation Approach for General Value Function	Jul 6, 2021	Anomaly DetectionOff-policy evaluation	—Unverified
A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning	Nov 2, 2017	Deep Reinforcement Learningreinforcement-learning	—Unverified
A Large Language Model-Driven Reward Design Framework via Dynamic Feedback for Reinforcement Learning	Oct 18, 2024	Language ModelingLanguage Modelling	—Unverified
A Regularized Approach to Sparse Optimal Policy in Reinforcement Learning	Mar 2, 2019	reinforcement-learningReinforcement Learning	—Unverified
A Reduction-Based Framework for Conservative Bandits and Reinforcement Learning	Jun 22, 2021	Multi-Armed Banditsreinforcement-learning	—Unverified
AARL: Automated Auxiliary Loss for Reinforcement Learning	Sep 29, 2021	reinforcement-learningReinforcement Learning	—Unverified
Data-efficient Deep Reinforcement Learning for Vehicle Trajectory Control	Nov 30, 2023	Autonomous DrivingDeep Reinforcement Learning	—Unverified
A Language Model based Evaluator for Sentence Compression	Jul 1, 2018	Language ModelingLanguage Modelling	—Unverified
A Unified Bellman Optimality Principle Combining Reward Maximization and Empowerment	Jul 26, 2019	MuJoCoReinforcement Learning	—Unverified
Data-efficient Deep Reinforcement Learning for Dexterous Manipulation	Apr 10, 2017	continuous-controlContinuous Control	—Unverified
AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning	May 22, 2025	Mathreinforcement-learning	—Unverified
Data-efficient Co-Adaptation of Morphology and Behaviour with Deep Reinforcement Learning	Nov 15, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
Data-efficient, Explainable and Safe Box Manipulation: Illustrating the Advantages of Physical Priors in Model-Predictive Control	Mar 2, 2023	Model Predictive ControlReinforcement Learning (RL)	—Unverified
A Kernel-Based Approach to Non-Stationary Reinforcement Learning in Metric Spaces	Jul 9, 2020	reinforcement-learningReinforcement Learning (RL)	—Unverified
Augmenting Online RL with Offline Data is All You Need: A Unified Hybrid RL Algorithm Design and Analysis	May 19, 2025	AllMulti-Armed Bandits	—Unverified
Effective Communications: A Joint Learning and Communication Framework for Multi-Agent Reinforcement Learning over Noisy Channels	Jan 2, 2021	Deep Reinforcement LearningMulti-agent Reinforcement Learning	—Unverified
Adaptive Coordination Offsets for Signalized Arterial Intersections using Deep Reinforcement Learning	Aug 6, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
AbstRaL: Augmenting LLMs' Reasoning by Reinforcing Abstract Thinking	Jun 9, 2025	Reinforcement Learning (RL)	—Unverified
Augmenting Control over Exploration Space in Molecular Dynamics Simulators to Streamline De Novo Analysis through Generative Control Policies	Jun 26, 2023	Drug DiscoveryInductive Bias	—Unverified
AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy	Jun 16, 2025	MathReinforcement Learning (RL)	—Unverified

Show:10 25 50

← PrevPage 57 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified