Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10401–10425 of 15113 papers

Title	Date	Tasks	Status
Off-Policy Reinforcement Learning with Loss Function Weighted by Temporal Difference Error	Dec 26, 2022	Deep Reinforcement LearningOpenAI Gym	—Unverified
Off-Policy Risk-Sensitive Reinforcement Learning Based Constrained Robust Optimal Control	Jun 10, 2020	reinforcement-learningReinforcement Learning (RL)	—Unverified
Off-Policy Selection for Initiating Human-Centric Experimental Design	Oct 26, 2024	Experimental DesignReinforcement Learning (RL)	—Unverified
Off-Policy Self-Critical Training for Transformer in Visual Paragraph Generation	Jun 21, 2020	Image CaptioningReinforcement Learning (RL)	—Unverified
Off-Policy Shaping Ensembles in Reinforcement Learning	May 21, 2014	Computational Efficiencyreinforcement-learning	—Unverified
OffRIPP: Offline RL-based Informative Path Planning	Sep 25, 2024	Offline RLreinforcement-learning	—Unverified
Off-road Autonomous Vehicles Traversability Analysis and Trajectory Planning Based on Deep Inverse Reinforcement Learning	Sep 16, 2019	Autonomous Vehiclesreinforcement-learning	—Unverified
Offsetting Unequal Competition through RL-assisted Incentive Schemes	Jan 5, 2022	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
OffWorld Gym: open-access physical robotics environment for real-world reinforcement learning benchmark and research	Oct 18, 2019	reinforcement-learningReinforcement Learning	—Unverified
Of Mice and Machines: A Comparison of Learning Between Real World Mice and RL Agents	May 18, 2025	Decision MakingReinforcement Learning (RL)	—Unverified
OIL: Observational Imitation Learning	Mar 3, 2018	Autonomous DrivingAutonomous Navigation	—Unverified
oIRL: Robust Adversarial Inverse Reinforcement Learning with Temporally Extended Actions	Feb 20, 2020	continuous-controlContinuous Control	—Unverified
O-MAPL: Offline Multi-agent Preference Learning	Jan 31, 2025	Reinforcement Learning (RL)SMAC	—Unverified
Omega-Regular Objectives in Model-Free Reinforcement Learning	Sep 26, 2018	modelreinforcement-learning	—Unverified
Omega-Regular Reward Machines	Aug 14, 2023	Reinforcement Learning (RL)	—Unverified
OMG-RL:Offline Model-based Guided Reward Learning for Heparin Treatment	Sep 20, 2024	Reinforcement Learning (RL)	—Unverified
OmniDRL: Robust Pedestrian Detection using Deep Reinforcement Learning on Omnidirectional Cameras	Mar 2, 2019	Deep Reinforcement LearningPedestrian Detection	—Unverified
OmniRL: In-Context Reinforcement Learning by Large-Scale Meta-Training in Randomized Worlds	Feb 5, 2025	Few-Shot LearningImitation Learning	—Unverified
On- and Off-Policy Monotonic Policy Improvement	Oct 10, 2017	reinforcement-learningReinforcement Learning	—Unverified
On Applications of Bootstrap in Continuous Space Reinforcement Learning	Mar 14, 2019	Decision Makingreinforcement-learning	—Unverified
On Assessing The Safety of Reinforcement Learning algorithms Using Formal Methods	Nov 8, 2021	Autonomous VehiclesQ-Learning	—Unverified
On Bellman equations for continuous-time policy evaluation I: discretization and approximation	Jul 8, 2024	Reinforcement Learning (RL)	—Unverified
On Bellman's principle of optimality and Reinforcement learning for safety-constrained Markov decision process	Feb 25, 2023	Q-Learningreinforcement-learning	—Unverified
On-board Deep Q-Network for UAV-assisted Online Power Transfer and Data Collection	Jun 4, 2019	Deep Reinforcement LearningQ-Learning	—Unverified
On Computation and Generalization of Generative Adversarial Imitation Learning	Jan 9, 2020	Decision MakingImitation Learning	—Unverified

Show:10 25 50

← PrevPage 417 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified