Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7276–7300 of 15113 papers

Title	Date	Tasks	Status
What's Behind PPO's Collapse in Long-CoT? Value Optimization Holds the Secret	Mar 3, 2025	MathReinforcement Learning (RL)	—Unverified
What Should I Do Now? Marrying Reinforcement Learning and Symbolic Planning	Jan 6, 2019	Deep Reinforcement LearningQuestion Answering	—Unverified
What Would pi* Do?: Imitation Learning via Off-Policy Reinforcement Learning	Sep 27, 2018	Imitation LearningQ-Learning	—Unverified
(When) Are Contrastive Explanations of Reinforcement Learning Helpful?	Nov 14, 2022	reinforcement-learningReinforcement Learning	—Unverified
When Autonomous Systems Meet Accuracy and Transferability through AI: A Survey	Mar 29, 2020	DeblurringDecision Making	—Unverified
When Can Large Reasoning Models Save Thinking? Mechanistic Analysis of Behavioral Divergence in Reasoning	May 21, 2025	Reinforcement Learning (RL)	—Unverified
When Collaborative Filtering Meets Reinforcement Learning	Feb 2, 2019	Collaborative FilteringInteractive Recommendation	—Unverified
When Do Drivers Concentrate? Attention-based Driver Behavior Modeling With Deep Reinforcement Learning	Feb 26, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
When is Agnostic Reinforcement Learning Statistically Tractable?	Oct 9, 2023	reinforcement-learningReinforcement Learning	—Unverified
When is a Prediction Knowledge?	Apr 18, 2019	Decision MakingPrediction	—Unverified
When Is Generalizable Reinforcement Learning Tractable?	Jan 1, 2021	reinforcement-learningReinforcement Learning	—Unverified
When is Offline Two-Player Zero-Sum Markov Game Solvable?	Jan 10, 2022	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
When Is Partially Observable Reinforcement Learning Not Scary?	Apr 19, 2022	Partially Observable Reinforcement Learningreinforcement-learning	—Unverified
When is Realizability Sufficient for Off-Policy Reinforcement Learning?	Nov 10, 2022	reinforcement-learningReinforcement Learning	—Unverified
When Learning Is Out of Reach, Reset: Generalization in Autonomous Visuomotor Reinforcement Learning	Mar 30, 2023	Reinforcement Learning (RL)	—Unverified
When Mining Electric Locomotives Meet Reinforcement Learning	Nov 14, 2023	reinforcement-learningReinforcement Learning	—Unverified
When Multiple Agents Learn to Schedule: A Distributed Radio Resource Management Framework	Jun 20, 2019	Deep Reinforcement LearningManagement	—Unverified
Provably Robust Blackbox Optimization for Reinforcement Learning	Mar 7, 2019	MuJoCoreinforcement-learning	—Unverified
When should agents explore?	Aug 26, 2021	DiversityReinforcement Learning (RL)	—Unverified
When Should We Prefer Offline Reinforcement Learning Over Behavioral Cloning?	Apr 12, 2022	Atari GamesDiagnostic	—Unverified
When Simple Exploration is Sample Efficient: Identifying Sufficient Conditions for Random Exploration to Yield PAC RL Algorithms	May 23, 2018	Efficient ExplorationQ-Learning	—Unverified
When to Go, and When to Explore: The Benefit of Post-Exploration in Intrinsic Motivation	Mar 29, 2022	Reinforcement Learning (RL)	—Unverified
When to Localize? A Risk-Constrained Reinforcement Learning Approach	Nov 5, 2024	reinforcement-learningReinforcement Learning	—Unverified
When to Trust Your Data: Enhancing Dyna-Style Model-Based Reinforcement Learning With Data Filter	Oct 16, 2024	Model-based Reinforcement LearningReinforcement Learning (RL)	—Unverified
Membership Inference Attacks Against Temporally Correlated Data in Deep Reinforcement Learning	Sep 8, 2021	Adversarial Attackcontinuous-control	—Unverified

Show:10 25 50

← PrevPage 292 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified