Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 13701–13750 of 15113 papers

Title	Date	Tasks	Status
Where Do You Think You're Going?: Inferring Beliefs about Dynamics from Behavior	May 21, 2018	reinforcement-learningReinforcement Learning	CodeCode Available
Self-Correcting Models for Model-Based Reinforcement Learning	Dec 19, 2016	modelModel-based Reinforcement Learning	CodeCode Available
MICRO: Model-Based Offline Reinforcement Learning with a Conservative Bellman Operator	Dec 7, 2023	Offline RLreinforcement-learning	CodeCode Available
Near-optimal Deep Reinforcement Learning Policies from Data for Zone Temperature Control	Mar 10, 2022	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
PsiPhi-Learning: Reinforcement Learning with Demonstrations using Successor Features and Inverse Temporal Difference Learning	Feb 24, 2021	Autonomous Drivingreinforcement-learning	CodeCode Available
Opponent Modeling in Deep Reinforcement Learning	Sep 18, 2016	Deep Reinforcement LearningMixture-of-Experts	CodeCode Available
Pseudo-Rehearsal: Achieving Deep Reinforcement Learning without Catastrophic Forgetting	Dec 6, 2018	Atari GamesContinual Learning	CodeCode Available
Opponent Aware Reinforcement Learning	Aug 22, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Towards Finding Longer Proofs	May 30, 2019	Automated Theorem Provingreinforcement-learning	CodeCode Available
MICo: Improved representations via sampling-based state similarity for Markov decision processes	Jun 3, 2021	Atari GamesDeep Reinforcement Learning	CodeCode Available
Optimality Inductive Biases and Agnostic Guidelines for Offline Reinforcement Learning	Jul 3, 2021	AttributeInductive Bias	CodeCode Available
Self-Guided Evolution Strategies with Historical Estimated Gradients	Apr 20, 2020	Reinforcement Learning (RL)	CodeCode Available
OPIRL: Sample Efficient Off-Policy Inverse Reinforcement Learning via Distribution Matching	Sep 9, 2021	reinforcement-learningReinforcement Learning	CodeCode Available
Zeroth-Order Actor-Critic: An Evolutionary Framework for Sequential Decision Problems	Jan 29, 2022	continuous-controlContinuous Control	CodeCode Available
Systematic Rectification of Language Models via Dead-end Analysis	Feb 27, 2023	Reinforcement Learning (RL)	CodeCode Available
Self-Imitation Learning for Robot Tasks with Sparse and Delayed Rewards	Oct 14, 2020	Imitation LearningMuJoCo	CodeCode Available
Near Optimal Behavior via Approximate State Abstraction	Jan 15, 2017	reinforcement-learningReinforcement Learning	CodeCode Available
Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in Partially Observed Markov Decision Processes	Oct 28, 2021	Causal InferenceManagement	CodeCode Available
MORAL: Aligning AI with Human Norms through Multi-Objective Reinforced Active Learning	Dec 30, 2021	Active LearningEthics	CodeCode Available
Operator World Models for Reinforcement Learning	Jun 28, 2024	Decision Makingreinforcement-learning	CodeCode Available
Self-Learning Exploration and Mapping for Mobile Robots via Deep Reinforcement Learning	Jan 6, 2019	Computational EfficiencyDeep Reinforcement Learning	CodeCode Available
Memory-based Deep Reinforcement Learning for Obstacle Avoidance in UAV with Limited Environment Knowledge	Nov 8, 2018	Decision MakingDeep Reinforcement Learning	CodeCode Available
Tackling Asymmetric and Circular Sequential Social Dilemmas with Reinforcement Learning and Graph-based Tit-for-Tat	Jun 26, 2022	Deep Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Tackling Error Propagation through Reinforcement Learning: A Case of Greedy Dependency Parsing	Feb 22, 2017	Dependency Parsingreinforcement-learning	CodeCode Available
Weight Normalization: A Simple Reparameterization to Accelerate Training of Deep Neural Networks	Feb 25, 2016	Deep Reinforcement LearningImage Classification	CodeCode Available
VacSIM: Learning Effective Strategies for COVID-19 Vaccine Distribution using Reinforcement Learning	Sep 14, 2020	Deep Reinforcement LearningMulti-Armed Bandits	CodeCode Available
Self-Paced Context Evaluation for Contextual Reinforcement Learning	Jun 9, 2021	reinforcement-learningReinforcement Learning	CodeCode Available
Proximal Distilled Evolutionary Reinforcement Learning	Jun 24, 2019	OpenAI Gymreinforcement-learning	CodeCode Available
Proximal Curriculum with Task Correlations for Deep Reinforcement Learning	May 3, 2024	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Learning Progress Driven Multi-Agent Curriculum	May 20, 2022	Multi-agent Reinforcement LearningOpen-Ended Question Answering	CodeCode Available
Uncertainty-Aware Reward-Free Exploration with General Function Approximation	Jun 24, 2024	Reinforcement Learning (RL)	CodeCode Available
Memory Augmented Self-Play	May 28, 2018	reinforcement-learningReinforcement Learning	CodeCode Available
Proximal Curriculum for Reinforcement Learning Agents	Apr 25, 2023	reinforcement-learningReinforcement Learning	CodeCode Available
Model-Free Adaptive Optimal Control of Episodic Fixed-Horizon Manufacturing Processes using Reinforcement Learning	Sep 18, 2018	Model Predictive ControlQ-Learning	CodeCode Available
Self Punishment and Reward Backfill for Deep Q-Learning	Apr 10, 2020	Atari GamesDeep Reinforcement Learning	CodeCode Available
Learning to Stabilize Online Reinforcement Learning in Unbounded State Spaces	Jun 2, 2023	Attributereinforcement-learning	CodeCode Available
Self-supervised Deep Reinforcement Learning with Generalized Computation Graphs for Robot Navigation	Sep 29, 2017	Deep Reinforcement LearningNavigate	CodeCode Available
Provably Efficient Reinforcement Learning with Linear Function Approximation	Jul 11, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
MOOSS: Mask-Enhanced Temporal Contrastive Learning for Smooth State Evolution in Visual Reinforcement Learning	Sep 2, 2024	Contrastive Learninggraph construction	CodeCode Available
Navigating Demand Uncertainty in Container Shipping: Deep Reinforcement Learning for Enabling Adaptive and Feasible Master Stowage Planning	Feb 18, 2025	Combinatorial OptimizationDeep Reinforcement Learning	CodeCode Available
VIPeR: Provably Efficient Algorithm for Offline RL with Neural Function Approximation	Feb 24, 2023	Computational EfficiencyOffline RL	CodeCode Available
Uncertainty-based Offline Variational Bayesian Reinforcement Learning for Robustness under Diverse Data Corruptions	Nov 1, 2024	Bayesian InferenceOffline RL	CodeCode Available
On the Unreasonable Efficiency of State Space Clustering in Personalization Tasks	Dec 24, 2021	Clusteringreinforcement-learning	CodeCode Available
Towards Hyperparameter-free Policy Selection for Offline Reinforcement Learning	Oct 26, 2021	Off-policy evaluationOpen-Ended Question Answering	CodeCode Available
On the Reuse Bias in Off-Policy Reinforcement Learning	Sep 15, 2022	continuous-controlContinuous Control	CodeCode Available
Visual Foresight: Model-Based Deep Reinforcement Learning for Vision-Based Robotic Control	Dec 3, 2018	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Addressing Sample Complexity in Visual Tasks Using HER and Hallucinatory GANs	Jan 31, 2019	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Self-Supervised State-Control through Intrinsic Mutual Information Rewards	Sep 25, 2019	OpenAI Gymreinforcement-learning	CodeCode Available
Welfare and Fairness in Multi-objective Reinforcement Learning	Nov 30, 2022	FairnessMulti-Objective Reinforcement Learning	CodeCode Available
Provably Efficient Exploration for Reinforcement Learning Using Unsupervised Learning	Mar 15, 2020	Efficient Explorationreinforcement-learning	CodeCode Available

Show:10 25 50

← PrevPage 275 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified