Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7801–7850 of 15113 papers

Title	Date	Tasks	Status	Hype
Safe Exploration by Solving Early Terminated MDP	Jul 9, 2021	Reinforcement Learning (RL)Safe Exploration	—Unverified	0
Policy Gradient Methods for Distortion Risk Measures	Jul 9, 2021	Policy Gradient Methodsreinforcement-learning	—Unverified	0
BayesSimIG: Scalable Parameter Inference for Adaptive Domain Randomization with IsaacGym	Jul 9, 2021	GPUReinforcement Learning (RL)	CodeCode Available	1
Inferring Probabilistic Reward Machines from Non-Markovian Reward Processes for Reinforcement Learning	Jul 9, 2021	Decision Makingreinforcement-learning	—Unverified	0
Aligning an optical interferometer with beam divergence control and continuous action space	Jul 9, 2021	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	0
Learning Interaction-aware Guidance Policies for Motion Planning in Dense Traffic Scenarios	Jul 9, 2021	Autonomous NavigationAutonomous Vehicles	—Unverified	0
Attend2Pack: Bin Packing through Deep Reinforcement Learning with Attention	Jul 9, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified	0
Offline reinforcement learning with uncertainty for treatment strategies in sepsis	Jul 9, 2021	reinforcement-learningReinforcement Learning	—Unverified	0
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning	Jul 8, 2021	Gaussian ProcessesModel-based Reinforcement Learning	—Unverified	0
Computational Benefits of Intermediate Rewards for Goal-Reaching Policy Learning	Jul 8, 2021	Hierarchical Reinforcement LearningQ-Learning	CodeCode Available	0
CLAIM: Curriculum Learning Policy for Influence Maximization in Unknown Social Networks	Jul 8, 2021	reinforcement-learningReinforcement Learning	—Unverified	0
Automated Gain Control Through Deep Reinforcement Learning for Downstream Radar Object Detection	Jul 8, 2021	Active LearningDeep Reinforcement Learning	—Unverified	0
Adaptive Stress Testing for Adversarial Learning in a Financial Environment	Jul 8, 2021	Fraud Detectionregression	—Unverified	0
Adaptation of Quadruped Robot Locomotion with Meta-Learning	Jul 8, 2021	Meta-LearningMeta Reinforcement Learning	—Unverified	0
Enhancing Video Analytics Accuracy via Real-time Automated Camera Parameter Tuning	Jul 8, 2021	Face DetectionFace Recognition	—Unverified	0
Learning Vision-Guided Quadrupedal Locomotion End-to-End with Cross-Modal Transformers	Jul 8, 2021	Reinforcement Learning (RL)	CodeCode Available	1
Sublinear Regret for Learning POMDPs	Jul 8, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified	0
Towards Autonomous Pipeline Inspection with Hierarchical Reinforcement Learning	Jul 8, 2021	Autonomous NavigationDeep Reinforcement Learning	—Unverified	0
Offline Meta-Reinforcement Learning with Online Self-Supervision	Jul 8, 2021	Meta Reinforcement LearningOffline RL	CodeCode Available	1
Federated Model Search via Reinforcement Learning	Jul 7, 2021	Federated LearningImage Classification	—Unverified	0
Learning Time-Invariant Reward Functions through Model-Based Inverse Reinforcement Learning	Jul 7, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified	0
DORA: Toward Policy Optimization for Task-oriented Dialogue System with Efficient Context	Jul 7, 2021	Reinforcement Learning (RL)Task-Oriented Dialogue Systems	CodeCode Available	0
Quadruped Locomotion on Non-Rigid Terrain using Reinforcement Learning	Jul 7, 2021	reinforcement-learningReinforcement Learning	—Unverified	0
Pseudo-Model-Free Hedging for Variable Annuities via Deep Reinforcement Learning	Jul 7, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified	0
Distributed Online Service Coordination Using Deep Reinforcement Learning	Jul 7, 2021	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
THE SJTU SYSTEM FOR DCASE2021 CHALLENGE TASK 6: AUDIO CAPTIONING BASED ON ENCODER PRE-TRAINING AND REINFORCEMENT LEARNING	Jul 6, 2021	Audio captioningAudio Tagging	CodeCode Available	1
Meta-Reinforcement Learning for Heuristic Planning	Jul 6, 2021	Meta Reinforcement Learningreinforcement-learning	—Unverified	0
Multi-Modal Mutual Information (MuMMI) Training for Robust Self-Supervised Deep Reinforcement Learning	Jul 6, 2021	Deep Reinforcement LearningMuJoCo	CodeCode Available	1
A Unified Off-Policy Evaluation Approach for General Value Function	Jul 6, 2021	Anomaly DetectionOff-policy evaluation	—Unverified	0
A Short Note on the Relationship of Information Gain and Eluder Dimension	Jul 6, 2021	LEMMAreinforcement-learning	—Unverified	0
AdaRL: What, Where, and How to Adapt in Transfer Reinforcement Learning	Jul 6, 2021	Atari Gamesreinforcement-learning	CodeCode Available	1
Gradient Importance Learning for Incomplete Observations	Jul 5, 2021	ImputationMissing Values	CodeCode Available	0
Control of rough terrain vehicles using deep reinforcement learning	Jul 5, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified	0
Ensemble and Auxiliary Tasks for Data-Efficient Deep Reinforcement Learning	Jul 5, 2021	Atari GamesDeep Reinforcement Learning	CodeCode Available	0
A Review of Explainable Artificial Intelligence in Manufacturing	Jul 5, 2021	Decision MakingExplainable artificial intelligence	—Unverified	0
Agents that Listen: High-Throughput Reinforcement Learning with Multiple Sensory Systems	Jul 5, 2021	Game of Doomreinforcement-learning	CodeCode Available	1
The Least Restriction for Offline Reinforcement Learning	Jul 5, 2021	Offline RLQ-Learning	—Unverified	0
Winning at Any Cost -- Infringing the Cartel Prohibition With Reinforcement Learning	Jul 5, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified	0
Sample Efficient Reinforcement Learning via Model-Ensemble Exploration and Exploitation	Jul 5, 2021	continuous-controlContinuous Control	CodeCode Available	1
Low Dimensional State Representation Learning with Robotics Priors in Continuous Action Spaces	Jul 4, 2021	reinforcement-learningReinforcement Learning	—Unverified	0
Low-Dimensional State and Action Representation Learning with MDP Homomorphism Metrics	Jul 4, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified	0
Restless and Uncertain: Robust Policies for Restless Bandits via Deep Multi-Agent Reinforcement Learning	Jul 4, 2021	Deep Reinforcement LearningMulti-agent Reinforcement Learning	—Unverified	0
Traffic Signal Control with Communicative Deep Reinforcement Learning Agents: a Case Study	Jul 3, 2021	Deep Reinforcement LearningMulti-agent Reinforcement Learning	—Unverified	0
Optimality Inductive Biases and Agnostic Guidelines for Offline Reinforcement Learning	Jul 3, 2021	AttributeInductive Bias	CodeCode Available	0
Mava: a research library for distributed multi-agent reinforcement learning in JAX	Jul 3, 2021	Decision MakingMulti-agent Reinforcement Learning	CodeCode Available	1
Examining average and discounted reward optimality criteria in reinforcement learning	Jul 3, 2021	reinforcement-learningReinforcement Learning	—Unverified	0
Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds for Episodic Reinforcement Learning	Jul 2, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified	0
Controlled Interacting Particle Algorithms for Simulation-based Reinforcement Learning	Jul 2, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	0
RL-NCS: Reinforcement learning based data-driven approach for nonuniform compressed sensing	Jul 2, 2021	compressed sensingreinforcement-learning	CodeCode Available	0
Reinforcement Learning for Feedback-Enabled Cyber Resilience	Jul 2, 2021	Intrusion Detectionreinforcement-learning	—Unverified	0

Show:10 25 50

← PrevPage 157 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified