Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8151–8175 of 15113 papers

Title	Date	Tasks	Status	Hype
Goal Misgeneralization in Deep Reinforcement Learning	May 28, 2021	Deep Reinforcement LearningNavigate	CodeCode Available	1
Sample-Efficient Reinforcement Learning for Linearly-Parameterized MDPs with a Generative Model	May 28, 2021	Q-Learningreinforcement-learning	—Unverified	0
Risk-Aware Transfer in Reinforcement Learning using Successor Features	May 28, 2021	Decision Makingreinforcement-learning	—Unverified	0
Optimistic Reinforcement Learning by Forward Kullback-Leibler Divergence Optimization	May 27, 2021	reinforcement-learningReinforcement Learning	—Unverified	0
Pattern Transfer Learning for Reinforcement Learning in Order Dispatching	May 27, 2021	reinforcement-learningReinforcement Learning	—Unverified	0
Branching Dueling Q-Network Based Online Scheduling of a Microgrid With Distributed Energy Storage Systems	May 27, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified	0
AndroidEnv: A Reinforcement Learning Platform for Android	May 27, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	2
A Modular and Transferable Reinforcement Learning Framework for the Fleet Rebalancing Problem	May 27, 2021	Decision Makingreinforcement-learning	—Unverified	0
Adversarial Intrinsic Motivation for Reinforcement Learning	May 27, 2021	Multi-Goal Reinforcement Learningreinforcement-learning	CodeCode Available	0
Context-aware taxi dispatching at city-scale using deep reinforcement learning	May 26, 2021	Action GenerationDeep Reinforcement Learning	—Unverified	0
Successive Convex Approximation Based Off-Policy Optimization for Constrained Reinforcement Learning	May 26, 2021	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	0
Trajectory Modeling via Random Utility Inverse Reinforcement Learning	May 25, 2021	Bayesian InferenceEconometrics	—Unverified	0
Unbiased Asymmetric Reinforcement Learning under Partial Observability	May 25, 2021	Partially Observable Reinforcement Learningreinforcement-learning	—Unverified	0
Safe Model-based Off-policy Reinforcement Learning for Eco-Driving in Connected and Automated Hybrid Electric Vehicles	May 25, 2021	Deep Reinforcement LearningModel-based Reinforcement Learning	—Unverified	0
Robust Value Iteration for Continuous Control Tasks	May 25, 2021	continuous-controlContinuous Control	CodeCode Available	1
Towards Scalable Verification of Deep Reinforcement Learning	May 25, 2021	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	0
Transfer Learning and Curriculum Learning in Sokoban	May 25, 2021	reinforcement-learningReinforcement Learning	—Unverified	0
A Generalised Inverse Reinforcement Learning Framework	May 25, 2021	OpenAI Gymreinforcement-learning	—Unverified	0
A Comparison of Reward Functions in Q-Learning Applied to a Cart Position Problem	May 25, 2021	PositionQ-Learning	CodeCode Available	0
Bayesian Nonparametric Reinforcement Learning in LTE and Wi-Fi Coexistence	May 25, 2021	Fairnessreinforcement-learning	—Unverified	0
KnowSR: Knowledge Sharing among Homogeneous Agents in Multi-agent Reinforcement Learning	May 25, 2021	Deep Reinforcement LearningKnowledge Distillation	—Unverified	0
Interpretable UAV Collision Avoidance using Deep Reinforcement Learning	May 25, 2021	Collision AvoidanceDeep Reinforcement Learning	—Unverified	0
IGO-QNN: Quantum Neural Network Architecture for Inductive Grover Oracularization	May 25, 2021	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified	0
FNAS: Uncertainty-Aware Fast Neural Architecture Search	May 25, 2021	FairnessGPU	—Unverified	0
Verification of Dissipativity and Evaluation of Storage Function in Economic Nonlinear MPC using Q-Learning	May 24, 2021	Q-LearningReinforcement Learning (RL)	—Unverified	0

Show:10 25 50

← PrevPage 327 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified