Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 9501–9525 of 15113 papers

Title	Date	Tasks	Status
Regret Bounds for Discounted MDPs	Feb 12, 2020	Q-LearningReinforcement Learning	—Unverified
Regret Bounds for Information-Directed Reinforcement Learning	Jun 9, 2022	reinforcement-learningReinforcement Learning	—Unverified
Regret Bounds for Learning State Representations in Reinforcement Learning	Dec 1, 2019	reinforcement-learningReinforcement Learning	—Unverified
Regret Bounds for Markov Decision Processes with Recursive Optimized Certainty Equivalents	Jan 30, 2023	reinforcement-learningReinforcement Learning (RL)	—Unverified
Regret Bounds for Reinforcement Learning via Markov Chain Concentration	Aug 6, 2018	reinforcement-learningReinforcement Learning	—Unverified
Regret Bounds for Reinforcement Learning with Policy Advice	May 5, 2013	reinforcement-learningReinforcement Learning	—Unverified
Regret Bounds for Risk-Sensitive Reinforcement Learning	Oct 11, 2022	reinforcement-learningReinforcement Learning	—Unverified
Regret-Free Reinforcement Learning for LTL Specifications	Nov 18, 2024	reinforcement-learningReinforcement Learning	—Unverified
Regret Minimization for Reinforcement Learning by Evaluating the Optimal Bias Function	Jun 12, 2019	reinforcement-learningReinforcement Learning	—Unverified
Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning	Jun 5, 2025	Q-LearningReinforcement Learning (RL)	—Unverified
Regularization Guarantees Generalization in Bayesian Reinforcement Learning through Algorithmic Stability	Sep 24, 2021	reinforcement-learningReinforcement Learning	—Unverified
Compositional Transfer in Hierarchical Reinforcement Learning	Jun 26, 2019	General Reinforcement LearningHierarchical Reinforcement Learning	—Unverified
Regularized Inverse Reinforcement Learning	Oct 7, 2020	reinforcement-learningReinforcement Learning	—Unverified
Regularize! Don't Mix: Multi-Agent Reinforcement Learning without Explicit Centralized Structures	Sep 19, 2021	Multi-agent Reinforcement LearningQ-Learning	—Unverified
Regularized Parameter Uncertainty for Improving Generalization in Reinforcement Learning	Jan 1, 2024	Out-of-Distribution Generalizationreinforcement-learning	—Unverified
Regularized Policies are Reward Robust	Jan 18, 2021	reinforcement-learningReinforcement Learning	—Unverified
Regularized Policy Iteration	Dec 1, 2008	L2 Regularizationreinforcement-learning	—Unverified
Regularized Q-learning	Feb 11, 2022	Q-Learningreinforcement-learning	—Unverified
Regularizing Action Policies for Smooth Control with Reinforcement Learning	Dec 11, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Regularizing Trajectory Optimization with Denoising Autoencoders	Mar 28, 2019	DenoisingModel-based Reinforcement Learning	—Unverified
Regulating Reward Training by Means of Certainty Prediction in a Neural Network-Implemented Pong Game	Sep 23, 2016	reinforcement-learningReinforcement Learning	—Unverified
REIN-2: Giving Birth to Prepared Reinforcement Learning Agents Using Reinforcement Learning Agents	Oct 11, 2021	Deep Reinforcement LearningMeta-Learning	—Unverified
ReinDSplit: Reinforced Dynamic Split Learning for Pest Recognition in Precision Agriculture	Jun 16, 2025	Q-LearningReinforcement Learning (RL)	—Unverified
ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning	May 28, 2025	DenoisingReinforcement Learning (RL)	—Unverified
Reinforce Attack: Adversarial Attack against BERT with Reinforcement Learning	Aug 17, 2021	Adversarial AttackAdversarial Text	—Unverified

Show:10 25 50

← PrevPage 381 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified