Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 13201–13250 of 15113 papers

Title	Date	Tasks	Status
The Pump Scheduling Problem: A Real-World Scenario for Reinforcement Learning	Oct 20, 2022	Deep Reinforcement LearningOffline RL	CodeCode Available
Robust Inverse Reinforcement Learning under Transition Dynamics Mismatch	Jul 2, 2020	reinforcement-learningReinforcement Learning	CodeCode Available
Reinforcement Learning Assisted Recursive QAOA	Jul 13, 2022	Combinatorial Optimizationreinforcement-learning	CodeCode Available
Robust Learning from Observation with Model Misspecification	Feb 12, 2022	continuous-controlContinuous Control	CodeCode Available
Maximum Entropy Deep Inverse Reinforcement Learning	Jul 17, 2015	reinforcement-learningReinforcement Learning	CodeCode Available
Multi-Objective Deep Reinforcement Learning	Oct 9, 2016	Deep Reinforcement LearningMulti-Objective Reinforcement Learning	CodeCode Available
Reinforcement Learning Approach for Mapping Applications to Dataflow-Based Coarse-Grained Reconfigurable Array	May 26, 2022	Graph AttentionGraph Neural Network	CodeCode Available
Planning to Learn: A Novel Algorithm for Active Learning during Model-Based Planning	Aug 15, 2023	Active Learningcounterfactual	CodeCode Available
Why People Skip Music? On Predicting Music Skips using Deep Reinforcement Learning	Jan 10, 2023	Deep Reinforcement LearningRecommendation Systems	CodeCode Available
Multimodal Sentiment Analysis with Word-Level Fusion and Reinforcement Learning	Feb 3, 2018	Multimodal Sentiment Analysisreinforcement-learning	CodeCode Available
Multilinear Tensor Low-Rank Approximation for Policy-Gradient Methods in Reinforcement Learning	Jan 8, 2025	Policy Gradient MethodsReinforcement Learning (RL)	CodeCode Available
MM-R5: MultiModal Reasoning-Enhanced ReRanker via Reinforcement Learning for Document Retrieval	Jun 14, 2025	Instruction FollowingMultimodal Reasoning	CodeCode Available
Speeding up Reinforcement Learning-based Information Extraction Training using Asynchronous Methods	Sep 1, 2017	reinforcement-learningReinforcement Learning	CodeCode Available
Metalearned Neural Memory	Jul 23, 2019	Question Answeringreinforcement-learning	CodeCode Available
Planning the path with Reinforcement Learning: Optimal Robot Motion Planning in RoboCup Small Size League Environments	Apr 23, 2024	Motion PlanningReinforcement Learning (RL)	CodeCode Available
Spiders Based on Anxiety: How Reinforcement Learning Can Deliver Desired User Experience in Virtual Reality Personalized Arachnophobia Treatment	Sep 25, 2024	Reinforcement Learning (RL)	CodeCode Available
Robust Offline Reinforcement learning with Heavy-Tailed Rewards	Oct 28, 2023	Offline RLOff-policy evaluation	CodeCode Available
Planning Multiple Epidemic Interventions with Reinforcement Learning	Jan 30, 2023	reinforcement-learningReinforcement Learning	CodeCode Available
Placeto: Learning Generalizable Device Placement Algorithms for Distributed Machine Learning	Jun 20, 2019	BIG-bench Machine LearningReinforcement Learning	CodeCode Available
Unsupervised Learning for Robust Fitting:A Reinforcement Learning Approach	Mar 5, 2021	reinforcement-learningReinforcement Learning	CodeCode Available
Variational Recurrent Models for Solving Partially Observable Control Tasks	Dec 23, 2019	Deep Reinforcement LearningMemorization	CodeCode Available
Low Emission Building Control with Zero-Shot Reinforcement Learning	Jun 28, 2022	reinforcement-learningReinforcement Learning	CodeCode Available
Robust On-Policy Sampling for Data-Efficient Policy Evaluation in Reinforcement Learning	Nov 29, 2021	Offline RLreinforcement-learning	CodeCode Available
Modelling crypto markets by multi-agent reinforcement learning	Feb 16, 2024	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available
Robust optimal well control using an adaptive multi-grid reinforcement learning framework	Jul 7, 2022	Computational Efficiencyreinforcement-learning	CodeCode Available
MAgent: A Many-Agent Reinforcement Learning Platform for Artificial Collective Intelligence	Dec 2, 2017	GPUMulti-agent Reinforcement Learning	CodeCode Available
Variation-resistant Q-learning: Controlling and Utilizing Estimation Bias in Reinforcement Learning for Better Performance	Feb 1, 2021	Q-Learningreinforcement-learning	CodeCode Available
PixelRL: Fully Convolutional Network with Reinforcement Learning for Image Processing	Dec 16, 2019	Deep Reinforcement LearningDenoising	CodeCode Available
Robust Policy Optimization in Deep Reinforcement Learning	Dec 14, 2022	continuous-controlContinuous Control	CodeCode Available
PixelBrax: Learning Continuous Control from Pixels End-to-End on the GPU	Jan 16, 2025	Benchmarkingcontinuous-control	CodeCode Available
Pittsburgh Learning Classifier Systems for Explainable Reinforcement Learning: Comparing with XCS	May 17, 2023	Explainable Artificial Intelligence (XAI)reinforcement-learning	CodeCode Available
The Role of Deep Learning Regularizations on Actors in Offline RL	Sep 11, 2024	D4RLOffline RL	CodeCode Available
Model Learning for Look-ahead Exploration in Continuous Control	Nov 20, 2018	continuous-controlContinuous Control	CodeCode Available
PIPPS: Flexible Model-Based Policy Search Robust to the Curse of Chaos	Feb 4, 2019	Model-based Reinforcement Learningreinforcement-learning	CodeCode Available
Unsupervised multi-latent space reinforcement learning framework for video summarization in ultrasound imaging	Sep 3, 2021	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
PIMbot: Policy and Incentive Manipulation for Multi-Robot Reinforcement Learning in Social Dilemmas	Jul 29, 2023	Reinforcement Learning (RL)	CodeCode Available
Physics-Informed Model and Hybrid Planning for Efficient Dyna-Style Reinforcement Learning	Jul 2, 2024	Reinforcement Learning (RL)	CodeCode Available
S-RL Toolbox: Environments, Datasets and Evaluation Metrics for State Representation Learning	Sep 25, 2018	Diversityreinforcement-learning	CodeCode Available
XCS as a reinforcement learning approach to automatic test case prioritization	Jul 12, 2020	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
Reinforcement Learning with Dual-Observation for General Video Game Playing	Nov 11, 2020	Decision Makingreinforcement-learning	CodeCode Available
Robust Reinforcement Learning in Continuous Control Tasks with Uncertainty Set Regularization	Jul 5, 2022	continuous-controlContinuous Control	CodeCode Available
Is Policy Learning Overrated?: Width-Based Planning and Active Learning for Atari	Sep 30, 2021	Active LearningAtari Games	CodeCode Available
Robust Reinforcement Learning Objectives for Sequential Recommender Systems	May 30, 2023	Offline RLRecommendation Systems	CodeCode Available
SSR-Zero: Simple Self-Rewarding Reinforcement Learning for Machine Translation	May 22, 2025	Machine TranslationReinforcement Learning (RL)	CodeCode Available
Reinforcement Learning Approaches for Traffic Signal Control under Missing Data	Apr 21, 2023	reinforcement-learningReinforcement Learning	CodeCode Available
Physically Embedded Planning Problems: New Challenges for Reinforcement Learning	Sep 11, 2020	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Stabilising viscous extensional flows using Reinforcement Learning	Oct 27, 2021	reinforcement-learningReinforcement Learning	CodeCode Available
Robust Reinforcement Learning Under Minimax Regret for Green Security	Jun 15, 2021	Decision Makingreinforcement-learning	CodeCode Available
Robust Reinforcement Learning under model misspecification	Mar 29, 2021	Adversarial Attackmodel	CodeCode Available
Reinforcement Learning and Deep Learning based Lateral Control for Autonomous Driving	Oct 30, 2018	Autonomous DrivingDeep Learning	CodeCode Available

Show:10 25 50

← PrevPage 265 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified