Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 12851–12900 of 15113 papers

Title	Date	Tasks	Status
Temporal Regularization for Markov Decision Process	Dec 1, 2018	Atari Gamesreinforcement-learning	CodeCode Available
Simplifying Deep Reinforcement Learning via Self-Supervision	Jun 10, 2021	Deep Reinforcement Learningregression	CodeCode Available
Dynamic Multi-Reward Weighting for Multi-Style Controllable Generation	Feb 21, 2024	Multi-Objective Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Pretraining the Vision Transformer using self-supervised methods for vision based Deep Reinforcement Learning	Sep 22, 2022	Atari GamesAtari Games 100k	CodeCode Available
Temporal Regularization in Markov Decision Process	Nov 1, 2018	Atari Gamesreinforcement-learning	CodeCode Available
Rethinking Supervised Learning and Reinforcement Learning in Task-Oriented Dialogue Systems	Sep 21, 2020	DecoderMulti-Label Classification	CodeCode Available
Pretrained Bayesian Non-parametric Knowledge Prior in Robotic Long-Horizon Reinforcement Learning	Mar 27, 2025	Reinforcement Learning (RL)	CodeCode Available
Rethinking the Role of Proxy Rewards in Language Model Alignment	Feb 2, 2024	Language ModelingLanguage Modelling	CodeCode Available
Reinforcement Learning with Dynamic Boltzmann Softmax Updates	Mar 14, 2019	Atari GamesQ-Learning	CodeCode Available
Reinforcement Learning with Deep Energy-Based Policies	Feb 27, 2017	Q-Learningreinforcement-learning	CodeCode Available
Molecular De Novo Design through Deep Reinforcement Learning	Apr 25, 2017	Activity PredictionDeep Reinforcement Learning	CodeCode Available
Reinforcement Learning with Brain-Inspired Modulation can Improve Adaptation to Environmental Changes	May 19, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
ZPD Teaching Strategies for Deep Reinforcement Learning from Demonstrations	Oct 26, 2019	Atari GamesDeep Reinforcement Learning	CodeCode Available
Prejudge-Before-Think: Enhancing Large Language Models at Test-Time by Process Prejudge Reasoning	Apr 18, 2025	Reinforcement Learning (RL)	CodeCode Available
Retrospex: Language Agent Meets Offline Reinforcement Learning Critic	May 17, 2025	reinforcement-learningReinforcement Learning	CodeCode Available
Reinforcement Learning with a Terminator	May 30, 2022	Autonomous Drivingreinforcement-learning	CodeCode Available
Sim-to-Real Reinforcement Learning for Deformable Object Manipulation	Jun 20, 2018	Deep Reinforcement LearningDeformable Object Manipulation	CodeCode Available
Towards Safe Mechanical Ventilation Treatment Using Deep Offline Reinforcement Learning	Oct 5, 2022	Deep Reinforcement LearningQ-Learning	CodeCode Available
Preferences Implicit in the State of the World	Feb 12, 2019	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Tensor and Matrix Low-Rank Value-Function Approximation in Reinforcement Learning	Jan 21, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
Reinforcement Learning with Algorithms from Probabilistic Structure Estimation	Mar 15, 2021	reinforcement-learningReinforcement Learning	CodeCode Available
Towards Safe Policy Improvement for Non-Stationary MDPs	Oct 23, 2020	Decision Makingreinforcement-learning	CodeCode Available
TensorFlow Agents: Efficient Batched Reinforcement Learning in TensorFlow	Sep 8, 2017	reinforcement-learningReinforcement Learning	CodeCode Available
Preference-Guided Reinforcement Learning for Efficient Exploration	Jul 9, 2024	Efficient Explorationreinforcement-learning	CodeCode Available
MOFGPT: Generative Design of Metal-Organic Frameworks using Language Models	May 30, 2025	reinforcement-learningReinforcement Learning	CodeCode Available
Reinforcement Learning with Adaptive Regularization for Safe Control of Critical Systems	Apr 23, 2024	Reinforcement Learning (RL)	CodeCode Available
Online Cyber-Attack Detection in Smart Grid: A Reinforcement Learning Approach	Sep 14, 2018	Anomaly DetectionCyber Attack Detection	CodeCode Available
Reinforcement Learning with a Corrupted Reward Channel	May 23, 2017	reinforcement-learningReinforcement Learning	CodeCode Available
NARS vs. Reinforcement learning: ONA vs. Q-Learning	Dec 23, 2022	Q-Learningreinforcement-learning	CodeCode Available
Integrating Distributed Architectures in Highly Modular RL Libraries	Jul 6, 2020	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
Myopic Bayesian Design of Experiments via Posterior Sampling and Probabilistic Programming	May 25, 2018	Bayesian InferenceMulti-Armed Bandits	CodeCode Available
Preference-based Interactive Multi-Document Summarisation	Jun 7, 2019	Active Learningreinforcement-learning	CodeCode Available
Predictive World Models from Real-World Partial Observations	Jan 12, 2023	Continual LearningOpen-Ended Question Answering	CodeCode Available
Simulation-Based Benchmarking of Reinforcement Learning Agents for Personalized Retail Promotions	May 16, 2024	BenchmarkingReinforcement Learning (RL)	CodeCode Available
Simulation-based reinforcement learning for real-world autonomous driving	Nov 29, 2019	Autonomous Drivingreinforcement-learning	CodeCode Available
Unified Distributed Environment	May 14, 2022	OpenAI Gymreinforcement-learning	CodeCode Available
Reinforcement Learning with A* and a Deep Heuristic	Nov 19, 2018	Q-Learningreinforcement-learning	CodeCode Available
Simulation of Nanorobots with Artificial Intelligence and Reinforcement Learning for Advanced Cancer Cell Detection and Tracking	Nov 4, 2024	Cell DetectionNavigate	CodeCode Available
Revisiting Fundamentals of Experience Replay	Jul 13, 2020	Deep Reinforcement LearningDQN Replay Dataset	CodeCode Available
Towards Sample Efficient Agents through Algorithmic Alignment	Aug 7, 2020	Deep Reinforcement LearningGraph Neural Network	CodeCode Available
Reinforcement Learning When All Actions are Not Always Available	Jun 5, 2019	AllDecision Making	CodeCode Available
Reinforcement Learning via Recurrent Convolutional Neural Networks	Jan 9, 2017	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Predicting Research Trends From Arxiv	Mar 7, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Revisiting Prioritized Experience Replay: A Value Perspective	Feb 5, 2021	Atari GamesQ-Learning	CodeCode Available
Reinforcement Learning via Auxiliary Task Distillation	Jun 24, 2024	Object Rearrangementreinforcement-learning	CodeCode Available
Online Baum-Welch algorithm for Hierarchical Imitation Learning	Mar 22, 2021	Hierarchical Reinforcement LearningImitation Learning	CodeCode Available
Simultaneous Double Q-learning with Conservative Advantage Learning for Actor-Critic Methods	May 8, 2022	continuous-controlContinuous Control	CodeCode Available
Revisiting State Augmentation methods for Reinforcement Learning with Stochastic Delays	Aug 17, 2021	reinforcement-learningReinforcement Learning	CodeCode Available
ViZDoom: A Doom-based AI Research Platform for Visual Reinforcement Learning	May 6, 2016	Atari GamesFPS Games	CodeCode Available
Towards Scalable Verification of Deep Reinforcement Learning	May 25, 2021	Deep Reinforcement Learningreinforcement-learning	CodeCode Available

Show:10 25 50

← PrevPage 258 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified