Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11501–11550 of 15113 papers

Title	Date	Tasks	Status
What About Taking Policy as Input of Value Function: Policy-extended Value Function Approximator	Sep 28, 2020	continuous-controlContinuous Control	—Unverified
What are the Statistical Limits of Batch RL with Linear Function Approximation?	Jan 1, 2021	reinforcement-learningReinforcement Learning	—Unverified
What are the Statistical Limits of Offline RL with Linear Function Approximation?	Oct 22, 2020	Decision MakingOffline RL	—Unverified
What Can RL Bring to VLA Generalization? An Empirical Study	May 26, 2025	Reinforcement Learning (RL)Vision-Language-Action	—Unverified
What can you do with a rock? Affordance extraction via word embeddings	Mar 9, 2017	Affordance DetectionReinforcement Learning	—Unverified
What deep reinforcement learning tells us about human motor learning and vice-versa	Aug 23, 2022	Decision MakingDeep Reinforcement Learning	—Unverified
What Does The User Want? Information Gain for Hierarchical Dialogue Policy Optimisation	Sep 15, 2021	Dialogue ManagementManagement	—Unverified
What is Going on Inside Recurrent Meta Reinforcement Learning Agents?	Apr 29, 2021	Meta Reinforcement Learningreinforcement-learning	—Unverified
What is Interpretable? Using Machine Learning to Design Interpretable Decision-Support Systems	Nov 27, 2018	BIG-bench Machine LearningReinforcement Learning	—Unverified
What is the Reward for Handwriting? -- Handwriting Generation by Imitation Learning	Sep 23, 2020	Handwriting generationImitation Learning	—Unverified
What Matters for On-Policy Deep Actor-Critic Methods? A Large-Scale Study	Jan 1, 2021	Attributecontinuous-control	—Unverified
What Robot do I Need? Fast Co-Adaptation of Morphology and Control using Graph Neural Networks	Nov 3, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
What's Behind PPO's Collapse in Long-CoT? Value Optimization Holds the Secret	Mar 3, 2025	MathReinforcement Learning (RL)	—Unverified
What Should I Do Now? Marrying Reinforcement Learning and Symbolic Planning	Jan 6, 2019	Deep Reinforcement LearningQuestion Answering	—Unverified
What Would pi* Do?: Imitation Learning via Off-Policy Reinforcement Learning	Sep 27, 2018	Imitation LearningQ-Learning	—Unverified
(When) Are Contrastive Explanations of Reinforcement Learning Helpful?	Nov 14, 2022	reinforcement-learningReinforcement Learning	—Unverified
When Autonomous Systems Meet Accuracy and Transferability through AI: A Survey	Mar 29, 2020	DeblurringDecision Making	—Unverified
When Can Large Reasoning Models Save Thinking? Mechanistic Analysis of Behavioral Divergence in Reasoning	May 21, 2025	Reinforcement Learning (RL)	—Unverified
When Collaborative Filtering Meets Reinforcement Learning	Feb 2, 2019	Collaborative FilteringInteractive Recommendation	—Unverified
When Do Drivers Concentrate? Attention-based Driver Behavior Modeling With Deep Reinforcement Learning	Feb 26, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
When is Agnostic Reinforcement Learning Statistically Tractable?	Oct 9, 2023	reinforcement-learningReinforcement Learning	—Unverified
When is a Prediction Knowledge?	Apr 18, 2019	Decision MakingPrediction	—Unverified
When Is Generalizable Reinforcement Learning Tractable?	Jan 1, 2021	reinforcement-learningReinforcement Learning	—Unverified
When is Offline Two-Player Zero-Sum Markov Game Solvable?	Jan 10, 2022	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
When Is Partially Observable Reinforcement Learning Not Scary?	Apr 19, 2022	Partially Observable Reinforcement Learningreinforcement-learning	—Unverified
When is Realizability Sufficient for Off-Policy Reinforcement Learning?	Nov 10, 2022	reinforcement-learningReinforcement Learning	—Unverified
When Learning Is Out of Reach, Reset: Generalization in Autonomous Visuomotor Reinforcement Learning	Mar 30, 2023	Reinforcement Learning (RL)	—Unverified
When Mining Electric Locomotives Meet Reinforcement Learning	Nov 14, 2023	reinforcement-learningReinforcement Learning	—Unverified
When Multiple Agents Learn to Schedule: A Distributed Radio Resource Management Framework	Jun 20, 2019	Deep Reinforcement LearningManagement	—Unverified
Provably Robust Blackbox Optimization for Reinforcement Learning	Mar 7, 2019	MuJoCoreinforcement-learning	—Unverified
When should agents explore?	Aug 26, 2021	DiversityReinforcement Learning (RL)	—Unverified
When Should We Prefer Offline Reinforcement Learning Over Behavioral Cloning?	Apr 12, 2022	Atari GamesDiagnostic	—Unverified
When Simple Exploration is Sample Efficient: Identifying Sufficient Conditions for Random Exploration to Yield PAC RL Algorithms	May 23, 2018	Efficient ExplorationQ-Learning	—Unverified
When to Go, and When to Explore: The Benefit of Post-Exploration in Intrinsic Motivation	Mar 29, 2022	Reinforcement Learning (RL)	—Unverified
When to Localize? A Risk-Constrained Reinforcement Learning Approach	Nov 5, 2024	reinforcement-learningReinforcement Learning	—Unverified
When to Trust Your Data: Enhancing Dyna-Style Model-Based Reinforcement Learning With Data Filter	Oct 16, 2024	Model-based Reinforcement LearningReinforcement Learning (RL)	—Unverified
Membership Inference Attacks Against Temporally Correlated Data in Deep Reinforcement Learning	Sep 8, 2021	Adversarial Attackcontinuous-control	—Unverified
Where Off-Policy Deep Reinforcement Learning Fails	Sep 27, 2018	continuous-controlContinuous Control	—Unverified
Where the Action is: Let's make Reinforcement Learning for Stochastic Dynamic Vehicle Routing Problems work!	Feb 28, 2021	Reinforcement Learning (RL)	—Unverified
Where to go next: Learning a Subgoal Recommendation Policy for Navigation Among Pedestrians	Feb 25, 2021	Collision AvoidanceDeep Reinforcement Learning	—Unverified
Where to Look: A Unified Attention Model for Visual Recognition with Reinforcement Learning	Nov 13, 2021	Q-LearningReinforcement Learning (RL)	—Unverified
Which Channel to Ask My Question? Personalized Customer Service RequestStream Routing using DeepReinforcement Learning	Nov 24, 2019	ChatbotDeep Reinforcement Learning	—Unverified
Which Mutual-Information Representation Learning Objectives are Sufficient for Control?	Jun 14, 2021	Reinforcement Learning (RL)Representation Learning	—Unverified
Whittle index based Q-learning for restless bandits with average reward	Apr 29, 2020	Q-Learningreinforcement-learning	—Unverified
Who Are the Best Adopters? User Selection Model for Free Trial Item Promotion	Feb 19, 2022	Marketingreinforcement-learning	—Unverified
Whole-body End-Effector Pose Tracking	Sep 24, 2024	Pose TrackingReinforcement Learning (RL)	—Unverified
Why Does Hierarchy (Sometimes) Work So Well in Reinforcement Learning?	Sep 23, 2019	Hierarchical Reinforcement Learningreinforcement-learning	—Unverified
Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit Partial Observability	Jul 13, 2021	Reinforcement Learning (RL)	—Unverified
Why Guided Dialog Policy Learning performs well? Understanding the role of adversarial learning and its alternative	Jul 13, 2023	Reinforcement Learning (RL)	—Unverified
Why is Posterior Sampling Better than Optimism for Reinforcement Learning?	Jul 1, 2016	reinforcement-learningReinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 231 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified