Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 801–825 of 15113 papers

Title	Date	Tasks	Status	Hype
Zeroth-Order Optimization Meets Human Feedback: Provable Learning via Ranking Oracles	Mar 7, 2023	Image Generationreinforcement-learning	CodeCode Available	1
Neural Airport Ground Handling	Mar 4, 2023	Combinatorial OptimizationReinforcement Learning (RL)	CodeCode Available	1
CoRL: Environment Creation and Management Focused on System Integration	Mar 3, 2023	Managementreinforcement-learning	CodeCode Available	1
Preference Transformer: Modeling Human Preferences using Transformers for RL	Mar 2, 2023	Decision MakingReinforcement Learning (RL)	CodeCode Available	1
LS-IQ: Implicit Reward Regularization for Inverse Reinforcement Learning	Mar 1, 2023	Continuous ControlImitation Learning	CodeCode Available	1
The In-Sample Softmax for Offline Reinforcement Learning	Feb 28, 2023	Offline RLreinforcement-learning	CodeCode Available	1
GANterfactual-RL: Understanding Reinforcement Learning Agents' Strategies through Visual Counterfactual Explanations	Feb 24, 2023	counterfactualDecision Making	CodeCode Available	1
Neural Laplace Control for Continuous-time Delayed Systems	Feb 24, 2023	Model Predictive ControlOffline RL	CodeCode Available	1
Model-Based Uncertainty in Value Functions	Feb 24, 2023	continuous-controlContinuous Control	CodeCode Available	1
Reinforcement Learning for Combining Search Methods in the Calibration of Economic ABMs	Feb 23, 2023	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	1
Energy Harvesting Reconfigurable Intelligent Surface for UAV Based on Robust Deep Reinforcement Learning	Feb 23, 2023	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Diverse Policy Optimization for Structured Action Space	Feb 23, 2023	DiversityReinforcement Learning (RL)	CodeCode Available	1
Behavior Proximal Policy Optimization	Feb 22, 2023	D4RLOffline RL	CodeCode Available	1
Deep Reinforcement Learning for Cost-Effective Medical Diagnosis	Feb 20, 2023	Anomaly DetectionDeep Reinforcement Learning	CodeCode Available	1
Swapped goal-conditioned offline reinforcement learning	Feb 17, 2023	Offline RLreinforcement-learning	CodeCode Available	1
Dual RL: Unification and New Methods for Reinforcement and Imitation Learning	Feb 16, 2023	Imitation LearningOffline RL	CodeCode Available	1
Semiconductor Fab Scheduling with Self-Supervised and Reinforcement Learning	Feb 14, 2023	reinforcement-learningReinforcement Learning	CodeCode Available	1
Guiding Pretraining in Reinforcement Learning with Large Language Models	Feb 13, 2023	Common Sense ReasoningLanguage Modeling	CodeCode Available	1
Automatic Noise Filtering with Dynamic Sparse Training in Deep Reinforcement Learning	Feb 13, 2023	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Procedural generation of meta-reinforcement learning tasks	Feb 11, 2023	Meta-LearningMeta Reinforcement Learning	CodeCode Available	1
The Wisdom of Hindsight Makes Language Models Better Instruction Followers	Feb 10, 2023	Decision MakingLanguage Modeling	CodeCode Available	1
A SWAT-based Reinforcement Learning Framework for Crop Management	Feb 10, 2023	BenchmarkingDecision Making	CodeCode Available	1
On Penalty-based Bilevel Gradient Descent Method	Feb 10, 2023	Bilevel OptimizationImage Reconstruction	CodeCode Available	1
ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills	Feb 9, 2023	GPUImitation Learning	CodeCode Available	1
Hierarchical Generative Adversarial Imitation Learning with Mid-level Input Generation for Autonomous Driving on Urban Environments	Feb 9, 2023	Autonomous DrivingAutonomous Navigation	CodeCode Available	1

Show:10 25 50

← PrevPage 33 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified