Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 13301–13350 of 15113 papers

Title	Date	Tasks	Status
Run, skeleton, run: skeletal model in a physics-based simulation	Nov 18, 2017	NavigatePolicy Gradient Methods	CodeCode Available
Unsupervised Reinforcement Learning in Multiple Environments	Dec 16, 2021	reinforcement-learningReinforcement Learning	CodeCode Available
PC-MLP: Model-based Reinforcement Learning with Policy Cover Guided Exploration	Jul 15, 2021	Model-based Reinforcement Learningreinforcement-learning	CodeCode Available
MMaDA: Multimodal Large Diffusion Language Models	May 21, 2025	Image GenerationReinforcement Learning (RL)	CodeCode Available
Unsupervised Representation Learning in Deep Reinforcement Learning: A Review	Aug 27, 2022	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
S2P: State-conditioned Image Synthesis for Data Augmentation in Offline Reinforcement Learning	Sep 30, 2022	Data AugmentationImage Generation	CodeCode Available
Paying Attention to Function Words	Sep 24, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Multi-hop Reading Comprehension via Deep Reinforcement Learning based Document Traversal	May 23, 2019	Decision MakingDeep Reinforcement Learning	CodeCode Available
Regularized Anderson Acceleration for Off-Policy Deep Reinforcement Learning	Sep 7, 2019	Deep Reinforcement LearningMuJoCo	CodeCode Available
The Value of Planning for Infinite-Horizon Model Predictive Control	Apr 7, 2021	Model Predictive ControlReinforcement Learning (RL)	CodeCode Available
StarCraft II: A New Challenge for Reinforcement Learning	Aug 16, 2017	Deep Reinforcement LearningReal-Time Strategy Games	CodeCode Available
Regularization Matters in Policy Optimization	Oct 21, 2019	continuous-controlContinuous Control	CodeCode Available
Unsupervised Reward Shaping for a Robotic Sequential Picking Task from Visual Observations in a Logistics Scenario	Sep 25, 2022	Imitation LearningReinforcement Learning (RL)	CodeCode Available
Normalization Enhances Generalization in Visual Reinforcement Learning	Jun 1, 2023	reinforcement-learningReinforcement Learning	CodeCode Available
Safe and Balanced: A Framework for Constrained Multi-Objective Reinforcement Learning	May 26, 2024	Multi-Objective Reinforcement Learningreinforcement-learning	CodeCode Available
Safe and Efficient Off-Policy Reinforcement Learning	Jun 8, 2016	Atari Gamesreinforcement-learning	CodeCode Available
StarCraft Micromanagement with Reinforcement Learning and Curriculum Transfer Learning	Apr 3, 2018	Real-Time Strategy Gamesreinforcement-learning	CodeCode Available
Safe and Robust Experience Sharing for Deterministic Policy Gradient Algorithms	Jul 27, 2022	continuous-controlContinuous Control	CodeCode Available
PathNet: Evolution Channels Gradient Descent in Super Neural Networks	Jan 30, 2017	Continual Learningreinforcement-learning	CodeCode Available
Safe and Sample-efficient Reinforcement Learning for Clustered Dynamic Environments	Mar 24, 2023	reinforcement-learningReinforcement Learning	CodeCode Available
STARLING: Self-supervised Training of Text-based Reinforcement Learning Agent with Large Language Models	Jun 9, 2024	Reinforcement Learning (RL)text-based games	CodeCode Available
Safe Chance Constrained Reinforcement Learning for Batch Process Control	Apr 23, 2021	Gaussian ProcessesModel Predictive Control	CodeCode Available
STAR-R1: Spacial TrAnsformation Reasoning by Reinforcing Multimodal LLMs	May 21, 2025	Efficient ExplorationReinforcement Learning (RL)	CodeCode Available
Safe Continuous Control with Constrained Model-Based Policy Optimization	Apr 14, 2021	continuous-controlContinuous Control	CodeCode Available
Verifiable and Compositional Reinforcement Learning Systems	Jun 7, 2021	reinforcement-learningReinforcement Learning	CodeCode Available
Regularization and Variance-Weighted Regression Achieves Minimax Optimality in Linear MDPs: Theory and Practice	May 22, 2023	regressionReinforcement Learning (RL)	CodeCode Available
No Press Diplomacy: Modeling Multi-Agent Gameplay	Sep 4, 2019	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
MAD: A Magnitude And Direction Policy Parametrization for Stability Constrained Reinforcement Learning	Apr 3, 2025	Reinforcement Learning (RL)	CodeCode Available
Unsupervised Task Clustering for Multi-Task Reinforcement Learning	Jan 1, 2021	Atari GamesClustering	CodeCode Available
Thinking Fast and Right: Balancing Accuracy and Reasoning Length with Adaptive Rewards	May 23, 2025	Reinforcement Learning (RL)	CodeCode Available
Non-zero-sum Game Control for Multi-vehicle Driving via Reinforcement Learning	Feb 8, 2023	Model-based Reinforcement Learningreinforcement-learning	CodeCode Available
Unsupervised Attention Mechanism across Neural Network Layers	Feb 27, 2019	Few-Shot LearningImage Classification	CodeCode Available
Non-Stationary Markov Decision Processes, a Worst-Case Approach using Model-Based Reinforcement Learning	Dec 1, 2019	Model-based Reinforcement LearningReinforcement Learning	CodeCode Available
Mixture-of-Variational-Experts for Continual Learning	Oct 25, 2021	Continual LearningDomain-IL Continual Learning	CodeCode Available
Regret Minimization for Reinforcement Learning with Vectorial Feedback and Complex Objectives	Dec 1, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Think-J: Learning to Think for Generative LLM-as-a-Judge	May 20, 2025	Offline RLReinforcement Learning (RL)	CodeCode Available
Non-Markovian Reward Modelling from Trajectory Labels via Interpretable Multiple Instance Learning	May 30, 2022	Multiple Instance LearningReinforcement Learning (RL)	CodeCode Available
Regret Minimization for Partially Observable Deep Reinforcement Learning	Oct 31, 2017	counterfactualDeep Reinforcement Learning	CodeCode Available
Regret Minimization Experience Replay in Off-Policy Reinforcement Learning	May 15, 2021	MuJoCoreinforcement-learning	CodeCode Available
Safe, Efficient, and Comfortable Velocity Control based on Reinforcement Learning for Autonomous Driving	Jan 29, 2019	Autonomous DrivingDeep Reinforcement Learning	CodeCode Available
Nonlinear Inverse Reinforcement Learning with Gaussian Processes	Dec 1, 2011	Gaussian Processesreinforcement-learning	CodeCode Available
Reinforcement learning with non-ergodic reward increments: robustness via ergodicity transformations	Oct 17, 2023	Autonomous Drivingreinforcement-learning	CodeCode Available
DOPE: Doubly Optimistic and Pessimistic Exploration for Safe Reinforcement Learning	Dec 1, 2021	reinforcement-learningReinforcement Learning	CodeCode Available
Mixed-R1: Unified Reward Perspective For Reasoning Capability in Multimodal Large Language Models	May 30, 2025	MathMultiple-choice	CodeCode Available
Kernel-Based Reinforcement Learning: A Finite-Time Analysis	Apr 12, 2020	reinforcement-learningReinforcement Learning	CodeCode Available
Partially Observable Residual Reinforcement Learning for PV-Inverter-Based Voltage Control in Distribution Grids	Jun 24, 2025	reinforcement-learningReinforcement Learning	CodeCode Available
Park: An Open Platform for Learning-Augmented Computer Systems	Dec 1, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Stateful active facilitator: Coordination and Environmental Heterogeneity in Cooperative Multi-Agent Reinforcement Learning	Oct 4, 2022	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available
State of the Art Control of Atari Games Using Shallow Reinforcement Learning	Dec 4, 2015	Atari Gamesreinforcement-learning	CodeCode Available
Safe Exploration Method for Reinforcement Learning under Existence of Disturbance	Sep 30, 2022	reinforcement-learningReinforcement Learning	CodeCode Available

Show:10 25 50

← PrevPage 267 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified