Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8876–8900 of 15113 papers

Title	Date	Tasks	Status
Regioned Episodic Reinforcement Learning	Jan 1, 2021	reinforcement-learningReinforcement Learning	—Unverified
Region Growing Curriculum Generation for Reinforcement Learning	Jul 4, 2018	reinforcement-learningReinforcement Learning	—Unverified
Regression with Linear Factored Functions	Dec 19, 2014	Gaussian Processesregression	—Unverified
Regret Analysis in Deterministic Reinforcement Learning	Jun 27, 2021	reinforcement-learningReinforcement Learning	—Unverified
Regret Analysis of Certainty Equivalence Policies in Continuous-Time Linear-Quadratic Systems	Jun 9, 2022	reinforcement-learningReinforcement Learning	—Unverified
Regret Bounds and Reinforcement Learning Exploration of EXP-based Algorithms	Sep 20, 2020	Multi-Armed Banditsreinforcement-learning	—Unverified
Regret Bounds for Discounted MDPs	Feb 12, 2020	Q-LearningReinforcement Learning	—Unverified
Regret Bounds for Information-Directed Reinforcement Learning	Jun 9, 2022	reinforcement-learningReinforcement Learning	—Unverified
Regret Bounds for Learning State Representations in Reinforcement Learning	Dec 1, 2019	reinforcement-learningReinforcement Learning	—Unverified
Regret Bounds for Markov Decision Processes with Recursive Optimized Certainty Equivalents	Jan 30, 2023	reinforcement-learningReinforcement Learning (RL)	—Unverified
Regret Bounds for Reinforcement Learning via Markov Chain Concentration	Aug 6, 2018	reinforcement-learningReinforcement Learning	—Unverified
Regret Bounds for Reinforcement Learning with Policy Advice	May 5, 2013	reinforcement-learningReinforcement Learning	—Unverified
Regret Bounds for Risk-Sensitive Reinforcement Learning	Oct 11, 2022	reinforcement-learningReinforcement Learning	—Unverified
Regret-Free Reinforcement Learning for LTL Specifications	Nov 18, 2024	reinforcement-learningReinforcement Learning	—Unverified
Regret Minimization for Reinforcement Learning by Evaluating the Optimal Bias Function	Jun 12, 2019	reinforcement-learningReinforcement Learning	—Unverified
Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning	Jun 5, 2025	Q-LearningReinforcement Learning (RL)	—Unverified
Regularization Guarantees Generalization in Bayesian Reinforcement Learning through Algorithmic Stability	Sep 24, 2021	reinforcement-learningReinforcement Learning	—Unverified
Compositional Transfer in Hierarchical Reinforcement Learning	Jun 26, 2019	General Reinforcement LearningHierarchical Reinforcement Learning	—Unverified
Regularized Inverse Reinforcement Learning	Oct 7, 2020	reinforcement-learningReinforcement Learning	—Unverified
Regularize! Don't Mix: Multi-Agent Reinforcement Learning without Explicit Centralized Structures	Sep 19, 2021	Multi-agent Reinforcement LearningQ-Learning	—Unverified
Regularized Parameter Uncertainty for Improving Generalization in Reinforcement Learning	Jan 1, 2024	Out-of-Distribution Generalizationreinforcement-learning	—Unverified
Regularized Policies are Reward Robust	Jan 18, 2021	reinforcement-learningReinforcement Learning	—Unverified
Regularized Policy Iteration	Dec 1, 2008	L2 Regularizationreinforcement-learning	—Unverified
Regularized Q-learning	Feb 11, 2022	Q-Learningreinforcement-learning	—Unverified
Regularizing Action Policies for Smooth Control with Reinforcement Learning	Dec 11, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 356 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified