Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7801–7825 of 15113 papers

Title	Date	Tasks	Status	Hype
Safe Exploration by Solving Early Terminated MDP	Jul 9, 2021	Reinforcement Learning (RL)Safe Exploration	—Unverified	0
Policy Gradient Methods for Distortion Risk Measures	Jul 9, 2021	Policy Gradient Methodsreinforcement-learning	—Unverified	0
BayesSimIG: Scalable Parameter Inference for Adaptive Domain Randomization with IsaacGym	Jul 9, 2021	GPUReinforcement Learning (RL)	CodeCode Available	1
Inferring Probabilistic Reward Machines from Non-Markovian Reward Processes for Reinforcement Learning	Jul 9, 2021	Decision Makingreinforcement-learning	—Unverified	0
Aligning an optical interferometer with beam divergence control and continuous action space	Jul 9, 2021	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	0
Learning Interaction-aware Guidance Policies for Motion Planning in Dense Traffic Scenarios	Jul 9, 2021	Autonomous NavigationAutonomous Vehicles	—Unverified	0
Attend2Pack: Bin Packing through Deep Reinforcement Learning with Attention	Jul 9, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified	0
Offline reinforcement learning with uncertainty for treatment strategies in sepsis	Jul 9, 2021	reinforcement-learningReinforcement Learning	—Unverified	0
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning	Jul 8, 2021	Gaussian ProcessesModel-based Reinforcement Learning	—Unverified	0
Computational Benefits of Intermediate Rewards for Goal-Reaching Policy Learning	Jul 8, 2021	Hierarchical Reinforcement LearningQ-Learning	CodeCode Available	0
CLAIM: Curriculum Learning Policy for Influence Maximization in Unknown Social Networks	Jul 8, 2021	reinforcement-learningReinforcement Learning	—Unverified	0
Automated Gain Control Through Deep Reinforcement Learning for Downstream Radar Object Detection	Jul 8, 2021	Active LearningDeep Reinforcement Learning	—Unverified	0
Adaptive Stress Testing for Adversarial Learning in a Financial Environment	Jul 8, 2021	Fraud Detectionregression	—Unverified	0
Adaptation of Quadruped Robot Locomotion with Meta-Learning	Jul 8, 2021	Meta-LearningMeta Reinforcement Learning	—Unverified	0
Enhancing Video Analytics Accuracy via Real-time Automated Camera Parameter Tuning	Jul 8, 2021	Face DetectionFace Recognition	—Unverified	0
Learning Vision-Guided Quadrupedal Locomotion End-to-End with Cross-Modal Transformers	Jul 8, 2021	Reinforcement Learning (RL)	CodeCode Available	1
Sublinear Regret for Learning POMDPs	Jul 8, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified	0
Towards Autonomous Pipeline Inspection with Hierarchical Reinforcement Learning	Jul 8, 2021	Autonomous NavigationDeep Reinforcement Learning	—Unverified	0
Offline Meta-Reinforcement Learning with Online Self-Supervision	Jul 8, 2021	Meta Reinforcement LearningOffline RL	CodeCode Available	1
Federated Model Search via Reinforcement Learning	Jul 7, 2021	Federated LearningImage Classification	—Unverified	0
Learning Time-Invariant Reward Functions through Model-Based Inverse Reinforcement Learning	Jul 7, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified	0
DORA: Toward Policy Optimization for Task-oriented Dialogue System with Efficient Context	Jul 7, 2021	Reinforcement Learning (RL)Task-Oriented Dialogue Systems	CodeCode Available	0
Quadruped Locomotion on Non-Rigid Terrain using Reinforcement Learning	Jul 7, 2021	reinforcement-learningReinforcement Learning	—Unverified	0
Pseudo-Model-Free Hedging for Variable Annuities via Deep Reinforcement Learning	Jul 7, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified	0
Distributed Online Service Coordination Using Deep Reinforcement Learning	Jul 7, 2021	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1

Show:10 25 50

← PrevPage 313 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified