Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5576–5600 of 15113 papers

Title	Date	Tasks	Status
Safe Control and Learning Using the Generalized Action Governor	Nov 22, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Safe Controller for Output Feedback Linear Systems using Model-Based Reinforcement Learning	Apr 4, 2022	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Debiased Off-Policy Evaluation for Recommendation Systems	Feb 20, 2020	counterfactualOff-policy evaluation	—Unverified
Safe Coupled Deep Q-Learning for Recommendation Systems	Jan 8, 2021	Q-LearningRecommendation Systems	—Unverified
Safety-Critical Learning of Robot Control with Temporal Logic Specifications	Sep 7, 2021	Gaussian ProcessesReinforcement Learning (RL)	—Unverified
Safe Decision-making for Lane-change of Autonomous Vehicles via Human Demonstration-aided Reinforcement Learning	Jul 1, 2022	Autonomous DrivingAutonomous Vehicles	—Unverified
Safe deep reinforcement learning-based constrained optimal control scheme for active distribution networks	Apr 15, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Safe Deep Reinforcement Learning by Verifying Task-Level Properties	Feb 20, 2023	Deep Reinforcement Learningreinforcement-learning	—Unverified
Safe Distributional Reinforcement Learning	Feb 26, 2021	Autonomous DrivingDistributional Reinforcement Learning	—Unverified
Safe Domain Randomization via Uncertainty-Aware Out-of-Distribution Detection and Policy Adaptation	Jul 8, 2025	MuJoCoOut-of-Distribution Detection	—Unverified
Safe Evaluation For Offline Learning: Are We Ready To Deploy?	Dec 16, 2022	Off-policy evaluationReinforcement Learning (RL)	—Unverified
Safe Exploration by Solving Early Terminated MDP	Jul 9, 2021	Reinforcement Learning (RL)Safe Exploration	—Unverified
Safe Exploration for Identifying Linear Systems via Robust Optimization	Nov 30, 2017	Reinforcement LearningReinforcement Learning (RL)	—Unverified
Safe Exploration in Linear Equality Constraint	Sep 29, 2021	reinforcement-learningReinforcement Learning	—Unverified
Safe Exploration in Model-based Reinforcement Learning using Control Barrier Functions	Apr 16, 2021	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Safe Exploration in Reinforcement Learning: Training Backup Control Barrier Functions with Zero Training Time Safety Violations	Dec 13, 2023	reinforcement-learningReinforcement Learning	—Unverified
Safe Exploration in Reinforcement Learning: A Generalized Formulation and Algorithms	Oct 5, 2023	reinforcement-learningReinforcement Learning	—Unverified
A predictive safety filter for learning-based control of constrained nonlinear dynamical systems	Dec 13, 2018	Model Predictive ControlReinforcement Learning	—Unverified
Safe Exploration of State and Action Spaces in Reinforcement Learning	Feb 4, 2014	Efficient ExplorationManagement	—Unverified
Safeguarded Progress in Reinforcement Learning: Safe Bayesian Exploration for Control Policy Synthesis	Dec 18, 2023	Bayesian InferenceReinforcement Learning (RL)	—Unverified
Safe Inverse Reinforcement Learning via Control Barrier Function	Dec 6, 2022	reinforcement-learningReinforcement Learning	—Unverified
Safe Learning and Optimization Techniques: Towards a Survey of the State of the Art	Jan 23, 2021	Active LearningEvolutionary Algorithms	—Unverified
Safe Model-based Off-policy Reinforcement Learning for Eco-Driving in Connected and Automated Hybrid Electric Vehicles	May 25, 2021	Deep Reinforcement LearningModel-based Reinforcement Learning	—Unverified
Safe and Efficient Reinforcement Learning Using Disturbance-Observer-Based Control Barrier Functions	Nov 30, 2022	Computational EfficiencyEfficient Exploration	—Unverified
Safe multi-agent deep reinforcement learning for joint bidding and maintenance scheduling of generation units	Dec 20, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 224 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified