Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10401–10450 of 15113 papers

Title	Date	Tasks	Status
Off-Policy Reinforcement Learning with Loss Function Weighted by Temporal Difference Error	Dec 26, 2022	Deep Reinforcement LearningOpenAI Gym	—Unverified
Off-Policy Risk-Sensitive Reinforcement Learning Based Constrained Robust Optimal Control	Jun 10, 2020	reinforcement-learningReinforcement Learning (RL)	—Unverified
Off-Policy Selection for Initiating Human-Centric Experimental Design	Oct 26, 2024	Experimental DesignReinforcement Learning (RL)	—Unverified
Off-Policy Self-Critical Training for Transformer in Visual Paragraph Generation	Jun 21, 2020	Image CaptioningReinforcement Learning (RL)	—Unverified
Off-Policy Shaping Ensembles in Reinforcement Learning	May 21, 2014	Computational Efficiencyreinforcement-learning	—Unverified
OffRIPP: Offline RL-based Informative Path Planning	Sep 25, 2024	Offline RLreinforcement-learning	—Unverified
Off-road Autonomous Vehicles Traversability Analysis and Trajectory Planning Based on Deep Inverse Reinforcement Learning	Sep 16, 2019	Autonomous Vehiclesreinforcement-learning	—Unverified
Offsetting Unequal Competition through RL-assisted Incentive Schemes	Jan 5, 2022	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
OffWorld Gym: open-access physical robotics environment for real-world reinforcement learning benchmark and research	Oct 18, 2019	reinforcement-learningReinforcement Learning	—Unverified
Of Mice and Machines: A Comparison of Learning Between Real World Mice and RL Agents	May 18, 2025	Decision MakingReinforcement Learning (RL)	—Unverified
OIL: Observational Imitation Learning	Mar 3, 2018	Autonomous DrivingAutonomous Navigation	—Unverified
oIRL: Robust Adversarial Inverse Reinforcement Learning with Temporally Extended Actions	Feb 20, 2020	continuous-controlContinuous Control	—Unverified
O-MAPL: Offline Multi-agent Preference Learning	Jan 31, 2025	Reinforcement Learning (RL)SMAC	—Unverified
Omega-Regular Objectives in Model-Free Reinforcement Learning	Sep 26, 2018	modelreinforcement-learning	—Unverified
Omega-Regular Reward Machines	Aug 14, 2023	Reinforcement Learning (RL)	—Unverified
OMG-RL:Offline Model-based Guided Reward Learning for Heparin Treatment	Sep 20, 2024	Reinforcement Learning (RL)	—Unverified
OmniDRL: Robust Pedestrian Detection using Deep Reinforcement Learning on Omnidirectional Cameras	Mar 2, 2019	Deep Reinforcement LearningPedestrian Detection	—Unverified
OmniRL: In-Context Reinforcement Learning by Large-Scale Meta-Training in Randomized Worlds	Feb 5, 2025	Few-Shot LearningImitation Learning	—Unverified
On- and Off-Policy Monotonic Policy Improvement	Oct 10, 2017	reinforcement-learningReinforcement Learning	—Unverified
On Applications of Bootstrap in Continuous Space Reinforcement Learning	Mar 14, 2019	Decision Makingreinforcement-learning	—Unverified
On Assessing The Safety of Reinforcement Learning algorithms Using Formal Methods	Nov 8, 2021	Autonomous VehiclesQ-Learning	—Unverified
On Bellman equations for continuous-time policy evaluation I: discretization and approximation	Jul 8, 2024	Reinforcement Learning (RL)	—Unverified
On Bellman's principle of optimality and Reinforcement learning for safety-constrained Markov decision process	Feb 25, 2023	Q-Learningreinforcement-learning	—Unverified
On-board Deep Q-Network for UAV-assisted Online Power Transfer and Data Collection	Jun 4, 2019	Deep Reinforcement LearningQ-Learning	—Unverified
On Computation and Generalization of Generative Adversarial Imitation Learning	Jan 9, 2020	Decision MakingImitation Learning	—Unverified
On Connections between Constrained Optimization and Reinforcement Learning	Oct 18, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
On Convergence of Average-Reward Q-Learning in Weakly Communicating Markov Decision Processes	Aug 29, 2024	Q-LearningReinforcement Learning (RL)	—Unverified
On Convergence Rate of Adaptive Multiscale Value Function Approximation For Reinforcement Learning	Aug 22, 2019	reinforcement-learningReinforcement Learning	—Unverified
On Corruption-Robustness in Performative Reinforcement Learning	May 8, 2025	reinforcement-learningReinforcement Learning	—Unverified
On Covariate Shift of Latent Confounders in Imitation and Reinforcement Learning	Oct 13, 2021	Imitation LearningRecommendation Systems	—Unverified
On Decentralizing Federated Reinforcement Learning in Multi-Robot Scenarios	Jul 19, 2022	Federated LearningQ-Learning	—Unverified
On Double Descent in Reinforcement Learning with LSTD and Random Features	Oct 9, 2023	Deep Reinforcement Learningreinforcement-learning	—Unverified
On Dynamic Programming Decompositions of Static Risk Measures in Markov Decision Processes	Apr 24, 2023	Reinforcement Learning (RL)	—Unverified
On Efficiency in Hierarchical Reinforcement Learning	Dec 1, 2020	Computational EfficiencyDecision Making	—Unverified
On Enhancing Network Throughput using Reinforcement Learning in Sliced Testbeds	Dec 21, 2024	Combinatorial OptimizationReinforcement Learning (RL)	—Unverified
One Policy but Many Worlds: A Scalable Unified Policy for Versatile Humanoid Locomotion	May 24, 2025	Humanoid ControlMotion Synthesis	—Unverified
One Policy is Enough: Parallel Exploration with a Single Policy is Near-Optimal for Reward-Free Reinforcement Learning	May 31, 2022	Reinforcement Learning (RL)	—Unverified
One RL to See Them All: Visual Triple Unified Reinforcement Learning	May 23, 2025	AllMath	—Unverified
One-shot learning and behavioral eligibility traces in sequential decision making	Nov 12, 2019	Decision MakingLearning Theory	—Unverified
One-Shot Learning of Manipulation Skills with Online Dynamics Adaptation and Neural Network Priors	Sep 23, 2015	Model-based Reinforcement LearningModel Predictive Control	—Unverified
One-shot, Offline and Production-Scalable PID Optimisation with Deep Reinforcement Learning	Oct 25, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified
One-Step Distributional Reinforcement Learning	Apr 27, 2023	Distributional Reinforcement Learningreinforcement-learning	—Unverified
Sample Complexity of Offline Reinforcement Learning with Deep ReLU Networks	Mar 11, 2021	Offline RLreinforcement-learning	—Unverified
On Gap-dependent Bounds for Offline Reinforcement Learning	Jun 1, 2022	reinforcement-learningReinforcement Learning	—Unverified
On Generalization and Distributional Update for Mimicking Observations with Adequate Exploration	Jan 22, 2025	Reinforcement Learning (RL)	—Unverified
On Hard Exploration for Reinforcement Learning: a Case Study in Pommerman	Jul 26, 2019	reinforcement-learningReinforcement Learning	—Unverified
On Improving Cross-dataset Generalization of Deepfake Detectors	Apr 8, 2022	Binary ClassificationClassification	—Unverified
On Improving Deep Reinforcement Learning for POMDPs	Apr 17, 2018	Atari GamesDecision Making	—Unverified
On Inductive Biases in Deep Reinforcement Learning	Jul 5, 2019	continuous-controlContinuous Control	—Unverified
On Information Asymmetry in Competitive Multi-Agent Reinforcement Learning: Convergence and Optimality	Oct 21, 2020	Multi-agent Reinforcement LearningQ-Learning	—Unverified

Show:10 25 50

← PrevPage 209 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified