Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8326–8350 of 15113 papers

Title	Date	Tasks	Status
Off-Policy Evaluation for Human Feedback	Oct 11, 2023	Off-policy evaluationReinforcement Learning (RL)	—Unverified
Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with Latent Confounders	Jul 27, 2020	Off-policy evaluationreinforcement-learning	—Unverified
Off-Policy Evaluation in Partially Observable Environments	Sep 9, 2019	Off-policy evaluationReinforcement Learning	—Unverified
Off-Policy Evaluation via Off-Policy Classification	Jun 4, 2019	ClassificationDeep Reinforcement Learning	—Unverified
Off-Policy Fitted Q-Evaluation with Differentiable Function Approximators: Z-Estimation and Inference Theory	Feb 10, 2022	Off-policy evaluationReinforcement Learning (RL)	—Unverified
Off-Policy Meta-Reinforcement Learning Based on Feature Embedding Spaces	Jan 6, 2021	Meta Reinforcement Learningreinforcement-learning	—Unverified
Off-Policy Policy Gradient Algorithms by Constraining the State Distribution Shift	Nov 16, 2019	continuous-controlContinuous Control	—Unverified
Off-policy reinforcement learning for H_ control design	Nov 24, 2013	reinforcement-learningReinforcement Learning	—Unverified
Off-Policy Reinforcement Learning with Delayed Rewards	Jun 22, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
Off-policy Reinforcement Learning with Optimistic Exploration and Distribution Correction	Oct 22, 2021	continuous-controlContinuous Control	—Unverified
Off-Policy Reinforcement Learning with High Dimensional Reward	Aug 14, 2024	reinforcement-learningReinforcement Learning	—Unverified
Off-Policy Reinforcement Learning with Loss Function Weighted by Temporal Difference Error	Dec 26, 2022	Deep Reinforcement LearningOpenAI Gym	—Unverified
Off-Policy Risk-Sensitive Reinforcement Learning Based Constrained Robust Optimal Control	Jun 10, 2020	reinforcement-learningReinforcement Learning (RL)	—Unverified
Off-Policy Selection for Initiating Human-Centric Experimental Design	Oct 26, 2024	Experimental DesignReinforcement Learning (RL)	—Unverified
Off-Policy Self-Critical Training for Transformer in Visual Paragraph Generation	Jun 21, 2020	Image CaptioningReinforcement Learning (RL)	—Unverified
Off-Policy Shaping Ensembles in Reinforcement Learning	May 21, 2014	Computational Efficiencyreinforcement-learning	—Unverified
OffRIPP: Offline RL-based Informative Path Planning	Sep 25, 2024	Offline RLreinforcement-learning	—Unverified
Off-road Autonomous Vehicles Traversability Analysis and Trajectory Planning Based on Deep Inverse Reinforcement Learning	Sep 16, 2019	Autonomous Vehiclesreinforcement-learning	—Unverified
Offsetting Unequal Competition through RL-assisted Incentive Schemes	Jan 5, 2022	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
OffWorld Gym: open-access physical robotics environment for real-world reinforcement learning benchmark and research	Oct 18, 2019	reinforcement-learningReinforcement Learning	—Unverified
Of Mice and Machines: A Comparison of Learning Between Real World Mice and RL Agents	May 18, 2025	Decision MakingReinforcement Learning (RL)	—Unverified
OIL: Observational Imitation Learning	Mar 3, 2018	Autonomous DrivingAutonomous Navigation	—Unverified
oIRL: Robust Adversarial Inverse Reinforcement Learning with Temporally Extended Actions	Feb 20, 2020	continuous-controlContinuous Control	—Unverified
O-MAPL: Offline Multi-agent Preference Learning	Jan 31, 2025	Reinforcement Learning (RL)SMAC	—Unverified
Omega-Regular Objectives in Model-Free Reinforcement Learning	Sep 26, 2018	modelreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 334 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified