Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7726–7750 of 15113 papers

Title	Date	Tasks	Status
GRIT: Teaching MLLMs to Think with Images	May 21, 2025	Reinforcement Learning (RL)Visual Reasoning	—Unverified
GRL-Prompt: Towards Knowledge Graph based Prompt Optimization via Reinforcement Learning	Nov 19, 2024	General KnowledgePrompt Engineering	—Unverified
Grounded Curriculum Learning	Sep 29, 2024	Reinforcement Learning (RL)	—Unverified
Grounded Reinforcement Learning for Visual Reasoning	May 29, 2025	reinforcement-learningReinforcement Learning	—Unverified
Grounding Aleatoric Uncertainty for Unsupervised Environment Design	Jul 11, 2022	Reinforcement Learning (RL)	—Unverified
Grounding Artificial Intelligence in the Origins of Human Behavior	Dec 15, 2020	Reinforcement Learning (RL)	—Unverified
Grounding Complex Navigational Instructions Using Scene Graphs	Jun 3, 2021	Question Answeringreinforcement-learning	—Unverified
Grounding Hierarchical Reinforcement Learning Models for Knowledge Transfer	Dec 19, 2014	Deep LearningHierarchical Reinforcement Learning	—Unverified
Grounding Language Models in Autonomous Loco-manipulation Tasks	Sep 2, 2024	Language ModelingLanguage Modelling	—Unverified
Grounding Language to Entities for Generalization in Reinforcement Learning	Jan 1, 2021	reinforcement-learningReinforcement Learning	—Unverified
Grounding Multimodal LLMs to Embodied Agents that Ask for Help with Reinforcement Learning	Apr 1, 2025	Reinforcement Learning (RL)Vision-Language-Action	—Unverified
Group Distributionally Robust Reinforcement Learning with Hierarchical Latent Variables	Oct 21, 2022	MuJoCoreinforcement-learning	—Unverified
Grower-in-the-Loop Interactive Reinforcement Learning for Greenhouse Climate Control	May 29, 2025	Reinforcement Learning (RL)	—Unverified
GrowSpace: Learning How to Shape Plants	Oct 15, 2021	FairnessReinforcement Learning (RL)	—Unverified
Grow Your Limits: Continuous Improvement with Real-World RL for Robotic Locomotion	Oct 26, 2023	Deep Reinforcement LearningEfficient Exploration	—Unverified
GRSN: Gated Recurrent Spiking Neurons for POMDPs and MARL	Apr 24, 2024	reinforcement-learningReinforcement Learning	—Unverified
GST: Group-Sparse Training for Accelerating Deep Reinforcement Learning	Jan 24, 2021	Decision MakingDeep Reinforcement Learning	—Unverified
Guaranteed satisficing and finite regret: Analysis of a cognitive satisficing value function	Dec 14, 2018	reinforcement-learningReinforcement Learning	—Unverified
Guaranteed Trust Region Optimization via Two-Phase KL Penalization	Dec 8, 2023	Computational EfficiencyReinforcement Learning (RL)	—Unverified
Guaranteeing Out-Of-Distribution Detection in Deep RL via Transition Estimation	Mar 7, 2025	Deep Reinforcement LearningOut-of-Distribution Detection	—Unverified
Guarantees for Epsilon-Greedy Reinforcement Learning with Function Approximation	Jun 19, 2022	reinforcement-learningReinforcement Learning	—Unverified
Guarded Policy Optimization with Imperfect Online Demonstrations	Mar 3, 2023	continuous-controlContinuous Control	—Unverified
"Guess what I'm doing": Extending legibility to sequential decision tasks	Sep 19, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Guided by Guardrails: Control Barrier Functions as Safety Instructors for Robotic Learning	May 24, 2025	Reinforcement Learning (RL)	—Unverified
Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot Locomotion	Feb 22, 2020	Deep Reinforcement LearningReinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 310 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified