Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 12001–12050 of 15113 papers

Title	Date	Tasks	Status
Run Time Assured Reinforcement Learning for Six Degree-of-Freedom Spacecraft Inspection	Jun 17, 2024	Reinforcement Learning (RL)	—Unverified
Runtime Safety Assurance Using Reinforcement Learning	Oct 20, 2020	reinforcement-learningReinforcement Learning	—Unverified
Runtime Verification of Learning Properties for Reinforcement Learning Algorithms	Nov 16, 2023	reinforcement-learningReinforcement Learning	—Unverified
S2RL: Do We Really Need to Perceive All States in Deep Multi-Agent Reinforcement Learning?	Jun 20, 2022	AllMulti-agent Reinforcement Learning	—Unverified
S2VG: Soft Stochastic Value Gradient method	Sep 25, 2019	Model-based Reinforcement Learningreinforcement-learning	—Unverified
S4RL: Surprisingly Simple Self-Supervision for Offline Reinforcement Learning	Mar 10, 2021	Autonomous DrivingD4RL	—Unverified
SAAC: Safe Reinforcement Learning as an Adversarial Game of Actor-Critics	Apr 20, 2022	continuous-controlContinuous Control	—Unverified
SAC-GLAM: Improving Online RL for LLM agents with Soft Actor-Critic and Hindsight Relabeling	Oct 16, 2024	Decision MakingReinforcement Learning (RL)	—Unverified
Random Policy Enables In-Context Reinforcement Learning within Trust Horizons	Oct 25, 2024	In-Context LearningIn-Context Reinforcement Learning	—Unverified
Safe and Psychologically Pleasant Traffic Signal Control with Reinforcement Learning using Action Masking	Jun 21, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Safe and Robust Reinforcement Learning: Principles and Practice	Mar 27, 2024	Domain Adaptationreinforcement-learning	—Unverified
Safe Approximate Dynamic Programming Via Kernelized Lipschitz Estimation	Jul 3, 2019	reinforcement-learningReinforcement Learning	—Unverified
Safe Continual Domain Adaptation after Sim2Real Transfer of Reinforcement Learning Policies in Robotics	Mar 13, 2025	Continual LearningDomain Adaptation	—Unverified
Safe Control and Learning Using the Generalized Action Governor	Nov 22, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Safe Controller for Output Feedback Linear Systems using Model-Based Reinforcement Learning	Apr 4, 2022	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Debiased Off-Policy Evaluation for Recommendation Systems	Feb 20, 2020	counterfactualOff-policy evaluation	—Unverified
Safe Coupled Deep Q-Learning for Recommendation Systems	Jan 8, 2021	Q-LearningRecommendation Systems	—Unverified
Safety-Critical Learning of Robot Control with Temporal Logic Specifications	Sep 7, 2021	Gaussian ProcessesReinforcement Learning (RL)	—Unverified
Safe Decision-making for Lane-change of Autonomous Vehicles via Human Demonstration-aided Reinforcement Learning	Jul 1, 2022	Autonomous DrivingAutonomous Vehicles	—Unverified
Safe deep reinforcement learning-based constrained optimal control scheme for active distribution networks	Apr 15, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Safe Deep Reinforcement Learning by Verifying Task-Level Properties	Feb 20, 2023	Deep Reinforcement Learningreinforcement-learning	—Unverified
Safe Distributional Reinforcement Learning	Feb 26, 2021	Autonomous DrivingDistributional Reinforcement Learning	—Unverified
Safe Domain Randomization via Uncertainty-Aware Out-of-Distribution Detection and Policy Adaptation	Jul 8, 2025	MuJoCoOut-of-Distribution Detection	—Unverified
Safe Evaluation For Offline Learning: Are We Ready To Deploy?	Dec 16, 2022	Off-policy evaluationReinforcement Learning (RL)	—Unverified
Safe Exploration by Solving Early Terminated MDP	Jul 9, 2021	Reinforcement Learning (RL)Safe Exploration	—Unverified
Safe Exploration for Identifying Linear Systems via Robust Optimization	Nov 30, 2017	Reinforcement LearningReinforcement Learning (RL)	—Unverified
Safe Exploration in Linear Equality Constraint	Sep 29, 2021	reinforcement-learningReinforcement Learning	—Unverified
Safe Exploration in Model-based Reinforcement Learning using Control Barrier Functions	Apr 16, 2021	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Safe Exploration in Reinforcement Learning: Training Backup Control Barrier Functions with Zero Training Time Safety Violations	Dec 13, 2023	reinforcement-learningReinforcement Learning	—Unverified
Safe Exploration in Reinforcement Learning: A Generalized Formulation and Algorithms	Oct 5, 2023	reinforcement-learningReinforcement Learning	—Unverified
A predictive safety filter for learning-based control of constrained nonlinear dynamical systems	Dec 13, 2018	Model Predictive ControlReinforcement Learning	—Unverified
Safe Exploration of State and Action Spaces in Reinforcement Learning	Feb 4, 2014	Efficient ExplorationManagement	—Unverified
Safeguarded Progress in Reinforcement Learning: Safe Bayesian Exploration for Control Policy Synthesis	Dec 18, 2023	Bayesian InferenceReinforcement Learning (RL)	—Unverified
Safe Inverse Reinforcement Learning via Control Barrier Function	Dec 6, 2022	reinforcement-learningReinforcement Learning	—Unverified
Safe Learning and Optimization Techniques: Towards a Survey of the State of the Art	Jan 23, 2021	Active LearningEvolutionary Algorithms	—Unverified
Safe Model-based Off-policy Reinforcement Learning for Eco-Driving in Connected and Automated Hybrid Electric Vehicles	May 25, 2021	Deep Reinforcement LearningModel-based Reinforcement Learning	—Unverified
Safe and Efficient Reinforcement Learning Using Disturbance-Observer-Based Control Barrier Functions	Nov 30, 2022	Computational EfficiencyEfficient Exploration	—Unverified
Safe multi-agent deep reinforcement learning for joint bidding and maintenance scheduling of generation units	Dec 20, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
Safe, Multi-Agent, Reinforcement Learning for Autonomous Driving	Oct 11, 2016	Autonomous DrivingDeep Reinforcement Learning	—Unverified
Safe Multi-Agent Reinforcement Learning via Shielding	Jan 27, 2021	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Safe Planning and Policy Optimization via World Model Learning	Jun 5, 2025	continuous-controlContinuous Control	—Unverified
Safe Policies for Reinforcement Learning via Primal-Dual Methods	Nov 20, 2019	reinforcement-learningReinforcement Learning	—Unverified
Safe Policy Improvement for POMDPs via Finite-State Controllers	Jan 12, 2023	Reinforcement Learning (RL)	—Unverified
Safe Policy Improvement in Constrained Markov Decision Processes	Oct 20, 2022	Reinforcement Learning (RL)	—Unverified
Safe Policy Search for Lifelong Reinforcement Learning with Sublinear Regret	May 21, 2015	Lifelong learningreinforcement-learning	—Unverified
Safe RAN control: A Symbolic Reinforcement Learning Approach	Jun 3, 2021	reinforcement-learningReinforcement Learning	—Unverified
SAFER: Data-Efficient and Safe Reinforcement Learning Through Skill Acquisition	Sep 29, 2021	reinforcement-learningReinforcement Learning	—Unverified
SAFER: Data-Efficient and Safe Reinforcement Learning via Skill Acquisition	Feb 10, 2022	reinforcement-learningReinforcement Learning	—Unverified
Safer Deep RL with Shallow MCTS: A Case Study in Pommerman	Apr 10, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
SAFER: Safe Collision Avoidance using Focused and Efficient Trajectory Search with Reinforcement Learning	Sep 23, 2022	Collision Avoidancereinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 241 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified