Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10376–10400 of 15113 papers

Title	Date	Tasks	Status
Offline Reinforcement Learning with Causal Structured World Models	Jun 3, 2022	Model-based Reinforcement LearningOffline RL	—Unverified
Offline Reinforcement Learning with Closed-Form Policy Improvement Operators	Nov 29, 2022	D4RLForm	—Unverified
Offline Reinforcement Learning with Discrete Diffusion Skills	Mar 26, 2025	DecoderOffline RL	—Unverified
Offline Reinforcement Learning with Fisher Divergence Critic Regularization	Mar 14, 2021	Offline RLreinforcement-learning	—Unverified
Offline Reinforcement Learning with On-Policy Q-Function Regularization	Jul 25, 2023	D4RLreinforcement-learning	—Unverified
Offline Reinforcement Learning with Resource Constrained Online Deployment	Sep 29, 2021	D4RLOffline RL	—Unverified
Offline Reinforcement Learning with Soft Behavior Regularization	Oct 14, 2021	continuous-controlContinuous Control	—Unverified
Offline RL with Observation Histories: Analyzing and Improving Sample Complexity	Oct 31, 2023	Autonomous NavigationOffline RL	—Unverified
Offline RL With Realistic Datasets: Heteroskedasticity and Support Constraints	Nov 2, 2022	Atari GamesOffline RL	—Unverified
Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator	Apr 23, 2025	Offline RLReinforcement Learning (RL)	—Unverified
Offline Robot Reinforcement Learning with Uncertainty-Guided Human Expert Sampling	Dec 16, 2022	MuJoCoQ-Learning	—Unverified
Offline Trajectory Generalization for Offline Reinforcement Learning	Apr 16, 2024	D4RLData Augmentation	—Unverified
Off-Policy Deep Reinforcement Learning Algorithms for Handling Various Robotic Manipulator Tasks	Dec 11, 2022	Deep Reinforcement LearningMuJoCo	—Unverified
Off-Policy Deep Reinforcement Learning by Bootstrapping the Covariate Shift	Jan 27, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
Off-Policy Evaluation for Human Feedback	Oct 11, 2023	Off-policy evaluationReinforcement Learning (RL)	—Unverified
Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with Latent Confounders	Jul 27, 2020	Off-policy evaluationreinforcement-learning	—Unverified
Off-Policy Evaluation in Partially Observable Environments	Sep 9, 2019	Off-policy evaluationReinforcement Learning	—Unverified
Off-Policy Evaluation via Off-Policy Classification	Jun 4, 2019	ClassificationDeep Reinforcement Learning	—Unverified
Off-Policy Fitted Q-Evaluation with Differentiable Function Approximators: Z-Estimation and Inference Theory	Feb 10, 2022	Off-policy evaluationReinforcement Learning (RL)	—Unverified
Off-Policy Meta-Reinforcement Learning Based on Feature Embedding Spaces	Jan 6, 2021	Meta Reinforcement Learningreinforcement-learning	—Unverified
Off-Policy Policy Gradient Algorithms by Constraining the State Distribution Shift	Nov 16, 2019	continuous-controlContinuous Control	—Unverified
Off-policy reinforcement learning for H_ control design	Nov 24, 2013	reinforcement-learningReinforcement Learning	—Unverified
Off-Policy Reinforcement Learning with Delayed Rewards	Jun 22, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
Off-policy Reinforcement Learning with Optimistic Exploration and Distribution Correction	Oct 22, 2021	continuous-controlContinuous Control	—Unverified
Off-Policy Reinforcement Learning with High Dimensional Reward	Aug 14, 2024	reinforcement-learningReinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 416 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified