Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10876–10900 of 15113 papers

Title	Date	Tasks	Status
Randomized Policy Learning for Continuous State and Action MDPs	Jun 8, 2020	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified
Tools for Data-driven Modeling of Within-Hand Manipulation with Underactuated Adaptive Hands	Jun 8, 2020	Model-based Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Stable Reinforcement Learning with Unbounded State Space	Jun 8, 2020	reinforcement-learningReinforcement Learning	—Unverified
Scalable Reinforcement Learning of Localized Policies for Multi-Agent Networked Systems	Jun 8, 2020	reinforcement-learningReinforcement Learning (RL)	—Unverified
Policy Optimization for H_2 Linear Control with H_ Robustness Guarantee: Implicit Regularization and Global Convergence	Jun 8, 2020	Reinforcement Learning (RL)	—Unverified
Maximum Entropy Model Rollouts: Fast Model Based Policy Optimization without Compounding Errors	Jun 8, 2020	modelModel-based Reinforcement Learning	—Unverified
Hallucinating Value: A Pitfall of Dyna-style Planning with Imperfect Environment Models	Jun 8, 2020	Reinforcement Learning (RL)	—Unverified
Learning to Plan via Deep Optimistic Value Exploration	Jun 8, 2020	BenchmarkingModel-based Reinforcement Learning	—Unverified
Balancing a CartPole System with Reinforcement Learning -- A Tutorial	Jun 8, 2020	OpenAI GymQ-Learning	—Unverified
A Decentralized Policy Gradient Approach to Multi-task Reinforcement Learning	Jun 8, 2020	Atari GamesMulti-Task Learning	—Unverified
A Comparison of Self-Play Algorithms Under a Generalized Framework	Jun 8, 2020	Reinforcement Learning (RL)	—Unverified
A Model-free Learning Algorithm for Infinite-horizon Average-reward MDPs with Near-optimal Regret	Jun 8, 2020	Q-Learningreinforcement-learning	—Unverified
Constrained Upper Confidence Reinforcement Learning with Known Dynamics	Jun 8, 2020	reinforcement-learningReinforcement Learning	—Unverified
Learning the model-free linear quadratic regulator via random search	Jun 8, 2020	Reinforcement Learning (RL)	—Unverified
Dual Policy Distillation	Jun 7, 2020	continuous-controlContinuous Control	CodeCode Available
Implications of Human Irrationality for Reinforcement Learning	Jun 7, 2020	BIG-bench Machine LearningDecision Making	—Unverified
Efficient Poverty Mapping using Deep Reinforcement Learning	Jun 7, 2020	Deep Reinforcement Learningobject-detection	—Unverified
Incorporating Pragmatic Reasoning Communication into Emergent Language	Jun 7, 2020	Multi-agent Reinforcement LearningReinforcement Learning (RL)	—Unverified
Multi-Task Reinforcement Learning based Mobile Manipulation Control for Dynamic Object Tracking and Grasping	Jun 7, 2020	ObjectObject Tracking	—Unverified
Skill Discovery of Coordination in Multi-agent Reinforcement Learning	Jun 7, 2020	DiversityMulti-agent Reinforcement Learning	—Unverified
Real-Time Model Calibration with Deep Reinforcement Learning	Jun 7, 2020	Deep Reinforcement Learningmodel	—Unverified
Model-Free Reinforcement Learning: from Clipped Pseudo-Regret to Sample Complexity	Jun 6, 2020	reinforcement-learningReinforcement Learning (RL)	—Unverified
Stable and Efficient Policy Evaluation	Jun 6, 2020	Reinforcement Learning (RL)	—Unverified
Efficient Evaluation of Natural Stochastic Policies in Offline Reinforcement Learning	Jun 6, 2020	Off-policy evaluationreinforcement-learning	—Unverified
Curiosity Killed or Incapacitated the Cat and the Asymptotically Optimal Agent	Jun 5, 2020	reinforcement-learningReinforcement Learning	CodeCode Available

Show:10 25 50

← PrevPage 436 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified