Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6126–6150 of 15113 papers

Title	Date	Tasks	Status
Learning to Play Pong using Policy Gradient Learning	Jul 23, 2018	Deep Reinforcement Learningreinforcement-learning	—Unverified
Learning to Play Soccer by Reinforcement and Applying Sim-to-Real to Compete in the Real World	Mar 24, 2020	Reinforcement LearningReinforcement Learning (RL)	—Unverified
Learning to Play Table Tennis From Scratch using Muscular Robots	Jun 10, 2020	reinforcement-learningReinforcement Learning (RL)	—Unverified
Learning to Play Two-Player Perfect-Information Games without Knowledge	Aug 3, 2020	reinforcement-learningReinforcement Learning	—Unverified
Learning to predict where to look in interactive environments using deep recurrent q-learning	Dec 17, 2016	Atari GamesQ-Learning	—Unverified
Learning to Program Variational Quantum Circuits with Fast Weights	Feb 27, 2024	Quantum Machine LearningReinforcement Learning (RL)	—Unverified
Learning to Progressively Plan	May 1, 2019	reinforcement-learningReinforcement Learning	—Unverified
Learning to Provably Satisfy High Relative Degree Constraints for Black-Box Systems	Jul 29, 2024	Reinforcement Learning (RL)	—Unverified
Learning to Prune Deep Neural Networks via Reinforcement Learning	Jul 9, 2020	Deep Reinforcement LearningModel Compression	—Unverified
Learning to Query Internet Text for Informing Reinforcement Learning Agents	May 25, 2022	reinforcement-learningReinforcement Learning	—Unverified
Learning to Reach Goals Without Reinforcement Learning	Sep 25, 2019	Imitation Learningreinforcement-learning	—Unverified
Learning to Reason: Distilling Hierarchy via Self-Supervision and Reinforcement Learning	Sep 25, 2019	reinforcement-learningReinforcement Learning (RL)	—Unverified
Learning to Reason in Large Theories without Imitation	May 25, 2019	Automated Theorem ProvingDeep Reinforcement Learning	—Unverified
Learning to Recover Sparse Signals	Sep 14, 2019	compressed sensingreinforcement-learning	—Unverified
Learning to Reinforcement Learn by Imitation	May 1, 2019	Meta-LearningMeta Reinforcement Learning	—Unverified
Learning to Repeat: Fine Grained Action Repetition for Deep Reinforcement Learning	Feb 20, 2017	Car RacingDecision Making	—Unverified
Learning to Represent Action Values as a Hypergraph on the Action Vertices	Oct 28, 2020	Atari GamesContinuous Control	—Unverified
Learning to Resolve Alliance Dilemmas in Many-Player Zero-Sum Games	Feb 27, 2020	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Learning to Reweight Imaginary Transitions for Model-Based Reinforcement Learning	Apr 9, 2021	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Learning Torque Control for Quadrupedal Locomotion	Mar 10, 2022	PositionReinforcement Learning (RL)	—Unverified
Learning to Run challenge: Synthesizing physiologically accurate motion using deep reinforcement learning	Mar 31, 2018	Deep Reinforcement LearningNavigate	—Unverified
Learning to Run with Potential-Based Reward Shaping and Demonstrations from Video Data	Dec 16, 2020	Reinforcement Learning (RL)	—Unverified
Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning Framework for Congestion Control in Tactical Environments	Jun 27, 2023	Reinforcement Learning (RL)	—Unverified
Learning to sample in Cartesian MRI	Dec 7, 2023	compressed sensingComputational Efficiency	—Unverified
Learning to Sample with Local and Global Contexts in Experience Replay Buffer	Jul 14, 2020	Reinforcement Learning (RL)	—Unverified

Show:10 25 50

← PrevPage 246 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified