Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8351–8375 of 15113 papers

Title	Date	Tasks	Status
Omega-Regular Reward Machines	Aug 14, 2023	Reinforcement Learning (RL)	—Unverified
OMG-RL:Offline Model-based Guided Reward Learning for Heparin Treatment	Sep 20, 2024	Reinforcement Learning (RL)	—Unverified
OmniDRL: Robust Pedestrian Detection using Deep Reinforcement Learning on Omnidirectional Cameras	Mar 2, 2019	Deep Reinforcement LearningPedestrian Detection	—Unverified
OmniRL: In-Context Reinforcement Learning by Large-Scale Meta-Training in Randomized Worlds	Feb 5, 2025	Few-Shot LearningImitation Learning	—Unverified
On- and Off-Policy Monotonic Policy Improvement	Oct 10, 2017	reinforcement-learningReinforcement Learning	—Unverified
On Applications of Bootstrap in Continuous Space Reinforcement Learning	Mar 14, 2019	Decision Makingreinforcement-learning	—Unverified
On Assessing The Safety of Reinforcement Learning algorithms Using Formal Methods	Nov 8, 2021	Autonomous VehiclesQ-Learning	—Unverified
On Bellman equations for continuous-time policy evaluation I: discretization and approximation	Jul 8, 2024	Reinforcement Learning (RL)	—Unverified
On Bellman's principle of optimality and Reinforcement learning for safety-constrained Markov decision process	Feb 25, 2023	Q-Learningreinforcement-learning	—Unverified
On-board Deep Q-Network for UAV-assisted Online Power Transfer and Data Collection	Jun 4, 2019	Deep Reinforcement LearningQ-Learning	—Unverified
On Computation and Generalization of Generative Adversarial Imitation Learning	Jan 9, 2020	Decision MakingImitation Learning	—Unverified
On Connections between Constrained Optimization and Reinforcement Learning	Oct 18, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
On Convergence of Average-Reward Q-Learning in Weakly Communicating Markov Decision Processes	Aug 29, 2024	Q-LearningReinforcement Learning (RL)	—Unverified
On Convergence Rate of Adaptive Multiscale Value Function Approximation For Reinforcement Learning	Aug 22, 2019	reinforcement-learningReinforcement Learning	—Unverified
On Corruption-Robustness in Performative Reinforcement Learning	May 8, 2025	reinforcement-learningReinforcement Learning	—Unverified
On Covariate Shift of Latent Confounders in Imitation and Reinforcement Learning	Oct 13, 2021	Imitation LearningRecommendation Systems	—Unverified
On Decentralizing Federated Reinforcement Learning in Multi-Robot Scenarios	Jul 19, 2022	Federated LearningQ-Learning	—Unverified
On Double Descent in Reinforcement Learning with LSTD and Random Features	Oct 9, 2023	Deep Reinforcement Learningreinforcement-learning	—Unverified
On Dynamic Programming Decompositions of Static Risk Measures in Markov Decision Processes	Apr 24, 2023	Reinforcement Learning (RL)	—Unverified
On Efficiency in Hierarchical Reinforcement Learning	Dec 1, 2020	Computational EfficiencyDecision Making	—Unverified
On Enhancing Network Throughput using Reinforcement Learning in Sliced Testbeds	Dec 21, 2024	Combinatorial OptimizationReinforcement Learning (RL)	—Unverified
One Policy but Many Worlds: A Scalable Unified Policy for Versatile Humanoid Locomotion	May 24, 2025	Humanoid ControlMotion Synthesis	—Unverified
One Policy is Enough: Parallel Exploration with a Single Policy is Near-Optimal for Reward-Free Reinforcement Learning	May 31, 2022	Reinforcement Learning (RL)	—Unverified
One RL to See Them All: Visual Triple Unified Reinforcement Learning	May 23, 2025	AllMath	—Unverified
One-shot learning and behavioral eligibility traces in sequential decision making	Nov 12, 2019	Decision MakingLearning Theory	—Unverified

Show:10 25 50

← PrevPage 335 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified