Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5851–5875 of 15113 papers

Title	Date	Tasks	Status
Learning by shaking: Computing policy gradients by physical forward-propagation	Sep 25, 2019	Model-based Reinforcement LearningReinforcement Learning (RL)	—Unverified
Learning Causal Overhypotheses through Exploration in Children and Computational Models	Feb 21, 2022	Causal InferenceEfficient Exploration	—Unverified
Learning Combinatorial Node Labeling Algorithms	Jun 7, 2021	BIG-bench Machine LearningGraph Attention	—Unverified
Learning Compact Reward for Image Captioning	Mar 24, 2020	DiversityImage Captioning	—Unverified
Learning Complex Spatial Behaviours in ABM: An Experimental Observational Study	Jan 4, 2022	Decision MakingReinforcement Learning (RL)	—Unverified
Learning Force Control for Contact-rich Manipulation Tasks with Rigid Position-controlled Robots	Mar 2, 2020	Contact-rich ManipulationPosition	—Unverified
Learning Context-aware Task Reasoning for Efficient Meta-reinforcement Learning	Mar 3, 2020	Meta-LearningMeta Reinforcement Learning	—Unverified
Learning Control for Air Hockey Striking using Deep Reinforcement Learning	Feb 26, 2017	Deep Reinforcement LearningQ-Learning	—Unverified
Learning Controllable Elements Oriented Representations for Reinforcement Learning	Sep 29, 2021	Decision MakingDeep Reinforcement Learning	—Unverified
Learning Cooperative Oversubscription for Cloud by Chance-Constrained Multi-Agent Reinforcement Learning	Nov 21, 2022	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Learning Coordinated Terrain-Adaptive Locomotion by Imitating a Centroidal Dynamics Planner	Oct 30, 2021	Imitation LearningReinforcement Learning (RL)	—Unverified
Learning Curricula in Open-Ended Worlds	Dec 3, 2023	Decision MakingDeep Reinforcement Learning	—Unverified
Learning Decentralized Partially Observable Mean Field Control for Artificial Collective Behavior	Jul 12, 2023	Policy Gradient MethodsReinforcement Learning (RL)	—Unverified
Learning Deep Control Policies for Autonomous Aerial Vehicles with MPC-Guided Policy Search	Sep 22, 2015	Model Predictive Controlreinforcement-learning	—Unverified
Learning Deterministic Policy with Target for Power Control in Wireless Networks	Feb 21, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
Learning Dexterous In-Hand Manipulation	Aug 1, 2018	Frictionreinforcement-learning	—Unverified
Learning Dexterous Object Handover	Jun 20, 2025	ObjectReinforcement Learning (RL)	—Unverified
Learning Dialog Policies from Weak Demonstrations	Apr 23, 2020	Atari GamesDeep Reinforcement Learning	—Unverified
Learning Diverse Policies with Soft Self-Generated Guidance	Feb 7, 2024	continuous-controlContinuous Control	—Unverified
Learning Dual-Arm Coordination for Grasping Large Flat Objects	Apr 4, 2025	Deep Reinforcement Learningreinforcement-learning	—Unverified
Learning Dual-arm Object Rearrangement for Cartesian Robots	Feb 21, 2024	Computational EfficiencyObject	—Unverified
Learning Dynamic Abstract Representations for Sample-Efficient Reinforcement Learning	Oct 4, 2022	reinforcement-learningReinforcement Learning	—Unverified
Learning Dynamic Mechanisms in Unknown Environments: A Reinforcement Learning Approach	Feb 25, 2022	reinforcement-learningReinforcement Learning	—Unverified
Learning Dynamics and Generalization in Reinforcement Learning	Jun 5, 2022	Policy Gradient Methodsreinforcement-learning	—Unverified
Learning Dynamics Model in Reinforcement Learning by Incorporating the Long Term Future	Mar 5, 2019	Imitation LearningModel-based Reinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 235 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified