Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8151–8200 of 15113 papers

Title	Date	Tasks	Status	Hype
Goal Misgeneralization in Deep Reinforcement Learning	May 28, 2021	Deep Reinforcement LearningNavigate	CodeCode Available	1
Sample-Efficient Reinforcement Learning for Linearly-Parameterized MDPs with a Generative Model	May 28, 2021	Q-Learningreinforcement-learning	—Unverified	0
Risk-Aware Transfer in Reinforcement Learning using Successor Features	May 28, 2021	Decision Makingreinforcement-learning	—Unverified	0
Optimistic Reinforcement Learning by Forward Kullback-Leibler Divergence Optimization	May 27, 2021	reinforcement-learningReinforcement Learning	—Unverified	0
Pattern Transfer Learning for Reinforcement Learning in Order Dispatching	May 27, 2021	reinforcement-learningReinforcement Learning	—Unverified	0
Branching Dueling Q-Network Based Online Scheduling of a Microgrid With Distributed Energy Storage Systems	May 27, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified	0
AndroidEnv: A Reinforcement Learning Platform for Android	May 27, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	2
A Modular and Transferable Reinforcement Learning Framework for the Fleet Rebalancing Problem	May 27, 2021	Decision Makingreinforcement-learning	—Unverified	0
Adversarial Intrinsic Motivation for Reinforcement Learning	May 27, 2021	Multi-Goal Reinforcement Learningreinforcement-learning	CodeCode Available	0
Context-aware taxi dispatching at city-scale using deep reinforcement learning	May 26, 2021	Action GenerationDeep Reinforcement Learning	—Unverified	0
Successive Convex Approximation Based Off-Policy Optimization for Constrained Reinforcement Learning	May 26, 2021	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	0
Trajectory Modeling via Random Utility Inverse Reinforcement Learning	May 25, 2021	Bayesian InferenceEconometrics	—Unverified	0
Unbiased Asymmetric Reinforcement Learning under Partial Observability	May 25, 2021	Partially Observable Reinforcement Learningreinforcement-learning	—Unverified	0
Safe Model-based Off-policy Reinforcement Learning for Eco-Driving in Connected and Automated Hybrid Electric Vehicles	May 25, 2021	Deep Reinforcement LearningModel-based Reinforcement Learning	—Unverified	0
Robust Value Iteration for Continuous Control Tasks	May 25, 2021	continuous-controlContinuous Control	CodeCode Available	1
Towards Scalable Verification of Deep Reinforcement Learning	May 25, 2021	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	0
Transfer Learning and Curriculum Learning in Sokoban	May 25, 2021	reinforcement-learningReinforcement Learning	—Unverified	0
A Generalised Inverse Reinforcement Learning Framework	May 25, 2021	OpenAI Gymreinforcement-learning	—Unverified	0
A Comparison of Reward Functions in Q-Learning Applied to a Cart Position Problem	May 25, 2021	PositionQ-Learning	CodeCode Available	0
Bayesian Nonparametric Reinforcement Learning in LTE and Wi-Fi Coexistence	May 25, 2021	Fairnessreinforcement-learning	—Unverified	0
KnowSR: Knowledge Sharing among Homogeneous Agents in Multi-agent Reinforcement Learning	May 25, 2021	Deep Reinforcement LearningKnowledge Distillation	—Unverified	0
Interpretable UAV Collision Avoidance using Deep Reinforcement Learning	May 25, 2021	Collision AvoidanceDeep Reinforcement Learning	—Unverified	0
IGO-QNN: Quantum Neural Network Architecture for Inductive Grover Oracularization	May 25, 2021	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified	0
FNAS: Uncertainty-Aware Fast Neural Architecture Search	May 25, 2021	FairnessGPU	—Unverified	0
Verification of Dissipativity and Evaluation of Storage Function in Economic Nonlinear MPC using Q-Learning	May 24, 2021	Q-LearningReinforcement Learning (RL)	—Unverified	0
Room Clearance with Feudal Hierarchical Reinforcement Learning	May 24, 2021	Hierarchical Reinforcement Learningreinforcement-learning	—Unverified	0
Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence	May 24, 2021	Reinforcement Learning (RL)	—Unverified	0
An Efficient Application of Neuroevolution for Competitive Multiagent Learning	May 23, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	0
Continual World: A Robotic Benchmark For Continual Reinforcement Learning	May 23, 2021	Continual Learningreinforcement-learning	CodeCode Available	1
Attention-based Reinforcement Learning for Real-Time UAV Semantic Communication	May 22, 2021	Deep Reinforcement LearningGraph Attention	—Unverified	0
Feasible Actor-Critic: Constrained Reinforcement Learning for Ensuring Statewise Safety	May 22, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	1
Stochastic Approximation of Gaussian Free Energy for Risk-Sensitive Reinforcement Learning	May 21, 2021	Decision Makingreinforcement-learning	—Unverified	0
Offline Meta Reinforcement Learning -- Identifiability Challenges and Effective Data Collection Strategies	May 21, 2021	Meta Reinforcement Learningreinforcement-learning	CodeCode Available	1
Meta Reinforcement Learning for Fast Adaptation of Hierarchical Policies	May 21, 2021	Meta-LearningMeta Reinforcement Learning	—Unverified	0
Reinforcement learning for instance segmentation with high-level priors	May 21, 2021	graph partitioningInstance Segmentation	—Unverified	0
Reinforcement Learning based Disease Progression Model for Alzheimer’s Disease	May 21, 2021	reinforcement-learningReinforcement Learning	—Unverified	0
Revisiting Design Choices in Offline Model Based Reinforcement Learning	May 21, 2021	Bayesian OptimizationModel-based Reinforcement Learning	—Unverified	0
Cooperative Multi-Agent Reinforcement Learning with Sequential Credit Assignment	May 21, 2021	counterfactualMulti-agent Reinforcement Learning	CodeCode Available	1
An Exponential Lower Bound for Linearly Realizable MDP with Constant Suboptimality Gap	May 21, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified	0
Learning MDPs from Features: Predict-Then-Optimize for Sequential Decision Making by Reinforcement Learning	May 21, 2021	Decision MakingReinforcement Learning (RL)	—Unverified	0
Gym-μRTS: Toward Affordable Full Game Real-time Strategy Games Research with Deep Reinforcement Learning	May 21, 2021	Deep Reinforcement LearningGPU	CodeCode Available	1
Certification of Iterative Predictions in Bayesian Neural Networks	May 21, 2021	Reinforcement Learning (RL)	CodeCode Available	0
De-Biased Modelling of Search Click Behavior with Reinforcement Learning	May 21, 2021	Learning-To-Rankreinforcement-learning	—Unverified	0
Ensemble Quantile Networks: Uncertainty-Aware Reinforcement Learning with Applications in Autonomous Driving	May 21, 2021	Autonomous DrivingDecision Making	CodeCode Available	1
Multi-Agent Deep Reinforcement Learning using Attentive Graph Neural Architectures for Real-Time Strategy Games	May 21, 2021	Deep Reinforcement LearningGraph Attention	—Unverified	0
Techniques Toward Optimizing Viewability in RTB Ad Campaigns Using Reinforcement Learning	May 21, 2021	Bayesian OptimizationDecision Making	—Unverified	0
Rule Augmented Unsupervised Constituency Parsing	May 21, 2021	Constituency Parsingreinforcement-learning	CodeCode Available	0
RLIRank: Learning to Rank with Reinforcement Learning for Dynamic Search	May 21, 2021	Learning-To-Rankreinforcement-learning	—Unverified	0
On the use of feature-maps and parameter control for improved quality-diversity meta-evolution	May 21, 2021	Diversityfeature selection	—Unverified	0
On Instrumental Variable Regression for Deep Offline Policy Evaluation	May 21, 2021	regressionReinforcement Learning (RL)	CodeCode Available	0

Show:10 25 50

← PrevPage 164 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified