Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10426–10450 of 15113 papers

Title	Date	Tasks	Status
On Connections between Constrained Optimization and Reinforcement Learning	Oct 18, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
On Convergence of Average-Reward Q-Learning in Weakly Communicating Markov Decision Processes	Aug 29, 2024	Q-LearningReinforcement Learning (RL)	—Unverified
On Convergence Rate of Adaptive Multiscale Value Function Approximation For Reinforcement Learning	Aug 22, 2019	reinforcement-learningReinforcement Learning	—Unverified
On Corruption-Robustness in Performative Reinforcement Learning	May 8, 2025	reinforcement-learningReinforcement Learning	—Unverified
On Covariate Shift of Latent Confounders in Imitation and Reinforcement Learning	Oct 13, 2021	Imitation LearningRecommendation Systems	—Unverified
On Decentralizing Federated Reinforcement Learning in Multi-Robot Scenarios	Jul 19, 2022	Federated LearningQ-Learning	—Unverified
On Double Descent in Reinforcement Learning with LSTD and Random Features	Oct 9, 2023	Deep Reinforcement Learningreinforcement-learning	—Unverified
On Dynamic Programming Decompositions of Static Risk Measures in Markov Decision Processes	Apr 24, 2023	Reinforcement Learning (RL)	—Unverified
On Efficiency in Hierarchical Reinforcement Learning	Dec 1, 2020	Computational EfficiencyDecision Making	—Unverified
On Enhancing Network Throughput using Reinforcement Learning in Sliced Testbeds	Dec 21, 2024	Combinatorial OptimizationReinforcement Learning (RL)	—Unverified
One Policy but Many Worlds: A Scalable Unified Policy for Versatile Humanoid Locomotion	May 24, 2025	Humanoid ControlMotion Synthesis	—Unverified
One Policy is Enough: Parallel Exploration with a Single Policy is Near-Optimal for Reward-Free Reinforcement Learning	May 31, 2022	Reinforcement Learning (RL)	—Unverified
One RL to See Them All: Visual Triple Unified Reinforcement Learning	May 23, 2025	AllMath	—Unverified
One-shot learning and behavioral eligibility traces in sequential decision making	Nov 12, 2019	Decision MakingLearning Theory	—Unverified
One-Shot Learning of Manipulation Skills with Online Dynamics Adaptation and Neural Network Priors	Sep 23, 2015	Model-based Reinforcement LearningModel Predictive Control	—Unverified
One-shot, Offline and Production-Scalable PID Optimisation with Deep Reinforcement Learning	Oct 25, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified
One-Step Distributional Reinforcement Learning	Apr 27, 2023	Distributional Reinforcement Learningreinforcement-learning	—Unverified
Sample Complexity of Offline Reinforcement Learning with Deep ReLU Networks	Mar 11, 2021	Offline RLreinforcement-learning	—Unverified
On Gap-dependent Bounds for Offline Reinforcement Learning	Jun 1, 2022	reinforcement-learningReinforcement Learning	—Unverified
On Generalization and Distributional Update for Mimicking Observations with Adequate Exploration	Jan 22, 2025	Reinforcement Learning (RL)	—Unverified
On Hard Exploration for Reinforcement Learning: a Case Study in Pommerman	Jul 26, 2019	reinforcement-learningReinforcement Learning	—Unverified
On Improving Cross-dataset Generalization of Deepfake Detectors	Apr 8, 2022	Binary ClassificationClassification	—Unverified
On Improving Deep Reinforcement Learning for POMDPs	Apr 17, 2018	Atari GamesDecision Making	—Unverified
On Inductive Biases in Deep Reinforcement Learning	Jul 5, 2019	continuous-controlContinuous Control	—Unverified
On Information Asymmetry in Competitive Multi-Agent Reinforcement Learning: Convergence and Optimality	Oct 21, 2020	Multi-agent Reinforcement LearningQ-Learning	—Unverified

Show:10 25 50

← PrevPage 418 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified