Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 13401–13450 of 15113 papers

Title	Date	Tasks	Status
Safe Reinforcement Learning in Black-Box Environments via Adaptive Shielding	May 28, 2024	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
RecoGym: A Reinforcement Learning Environment for the problem of Product Recommendation in Online Advertising	Aug 2, 2018	Product RecommendationRecommendation Systems	CodeCode Available
Parameterized Indexed Value Function for Efficient Exploration in Reinforcement Learning	Dec 23, 2019	Efficient Explorationreinforcement-learning	CodeCode Available
Safe Reinforcement Learning of Control-Affine Systems with Vertex Networks	Mar 20, 2020	reinforcement-learningReinforcement Learning	CodeCode Available
StepCountJITAI: simulation environment for RL with application to physical activity adaptive intervention	Nov 1, 2024	Reinforcement Learning (RL)	CodeCode Available
Parameter-free Reduction of the Estimation Bias in Deep Reinforcement Learning for Deterministic Policy Gradients	Sep 24, 2021	continuous-controlContinuous Control	CodeCode Available
Noisy Natural Gradient as Variational Inference	Dec 6, 2017	Active LearningEfficient Exploration	CodeCode Available
ReCCoVER: Detecting Causal Confusion for Explainable Reinforcement Learning	Mar 21, 2022	Deep Reinforcement Learningfeature selection	CodeCode Available
Safe Reinforcement Learning Using Black-Box Reachability Analysis	Apr 15, 2022	Motion Planningreinforcement-learning	CodeCode Available
StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization	May 21, 2025	Question AnsweringReinforcement Learning (RL)	CodeCode Available
Noise-Resilient Symbolic Regression with Dynamic Gating Reinforcement Learning	Jan 2, 2025	regressionreinforcement-learning	CodeCode Available
Next-Best-View Estimation based on Deep Reinforcement Learning for Active Object Classification	Oct 13, 2021	Deep Reinforcement LearningObject	CodeCode Available
reBandit: Random Effects based Online RL algorithm for Reducing Cannabis Use	Feb 27, 2024	Reinforcement Learning (RL)	CodeCode Available
Safe Reinforcement Learning with Nonlinear Dynamics via Model Predictive Shielding	May 25, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Safe Reinforcement Learning via Probabilistic Logic Shields	Mar 6, 2023	reinforcement-learningReinforcement Learning	CodeCode Available
STL-Based Synthesis of Feedback Controllers Using Reinforcement Learning	Dec 2, 2022	continuous-controlContinuous Control	CodeCode Available
Safe Reinforcement Learning via Shielding	Aug 29, 2017	reinforcement-learningReinforcement Learning	CodeCode Available
Parameter-Based Value Functions	Jun 16, 2020	continuous-controlContinuous Control	CodeCode Available
VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization	May 25, 2025	Reinforcement Learning (RL)	CodeCode Available
Stochastic Answer Networks for Machine Reading Comprehension	Dec 10, 2017	Machine Reading ComprehensionQuestion Answering	CodeCode Available
Time-R1: Towards Comprehensive Temporal Reasoning in LLMs	May 16, 2025	Question AnsweringReinforcement Learning (RL)	CodeCode Available
Missingness as Stability: Understanding the Structure of Missingness in Longitudinal EHR data and its Impact on Reinforcement Learning in Healthcare	Nov 16, 2019	Imputationreinforcement-learning	CodeCode Available
Newton-type Methods for Minimax Optimization	Jun 25, 2020	Reinforcement Learning (RL)Vocal Bursts Type Prediction	CodeCode Available
Newsvendor Model with Deep Reinforcement Learning	Dec 22, 2021	Deep Reinforcement Learningmodel	CodeCode Available
Meta-Inverse Reinforcement Learning with Probabilistic Context Variables	Sep 20, 2019	continuous-controlContinuous Control	CodeCode Available
Upside-Down Reinforcement Learning Can Diverge in Stochastic Environments With Episodic Resets	May 13, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
Mirror Descent Search and its Acceleration	Sep 8, 2017	reinforcement-learningReinforcement Learning	CodeCode Available
Urban Driving with Multi-Objective Deep Reinforcement Learning	Nov 21, 2018	Autonomous DrivingDeep Reinforcement Learning	CodeCode Available
Neuro-symbolic Natural Logic with Introspective Revision for Natural Language Inference	Mar 9, 2022	Natural Language Inferencereinforcement-learning	CodeCode Available
Safe Reinforcement Learning with Scene Decomposition for Navigating Complex Urban Environments	Apr 25, 2019	Decision MakingNavigate	CodeCode Available
Marginal Policy Gradients: A Unified Family of Estimators for Bounded Action Spaces with Applications	Jun 13, 2018	continuous-controlContinuous Control	CodeCode Available
Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model	Jul 1, 2019	continuous-controlContinuous Control	CodeCode Available
TinyQMIX: Distributed Access Control for mMTC via Multi-agent Reinforcement Learning	Nov 21, 2022	Deep Reinforcement LearningMulti-agent Reinforcement Learning	CodeCode Available
Safer Reinforcement Learning through Transferable Instinct Networks	Jul 14, 2021	reinforcement-learningReinforcement Learning	CodeCode Available
Neuro-Symbolic Approaches for Text-Based Policy Learning	Nov 1, 2021	Reinforcement Learning (RL)text-based games	CodeCode Available
Reasoning Under 1 Billion: Memory-Augmented Reinforcement Learning for Large Language Models	Apr 3, 2025	GSM8KReinforcement Learning (RL)	CodeCode Available
Stochastic Neural Networks for Hierarchical Reinforcement Learning	Apr 10, 2017	Deep Reinforcement LearningHierarchical Reinforcement Learning	CodeCode Available
Stochastic optimal well control in subsurface reservoirs using reinforcement learning	Jul 7, 2022	Managementreinforcement-learning	CodeCode Available
Parameter and Computation Efficient Transfer Learning for Vision-Language Pre-trained Models	Sep 4, 2023	Reinforcement Learning (RL)Transfer Learning	CodeCode Available
Neuronal Circuit Policies	Mar 22, 2018	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Neurogenetic Programming Framework for Explainable Reinforcement Learning	Feb 8, 2021	OpenAI Gymreinforcement-learning	CodeCode Available
Multi-Agent Reinforcement Learning for Visibility-based Persistent Monitoring	Nov 2, 2020	Graph AttentionMulti-agent Reinforcement Learning	CodeCode Available
TreeC: a method to generate interpretable energy management systems using a metaheuristic algorithm	Apr 17, 2023	energy managementManagement	CodeCode Available
TreeQN and ATreeC: Differentiable Tree-Structured Models for Deep Reinforcement Learning	Oct 31, 2017	Atari GamesDeep Reinforcement Learning	CodeCode Available
Multiagent Reinforcement Learning based Energy Beamforming Control	Jun 15, 2020	reinforcement-learningReinforcement Learning	CodeCode Available
Multi-Agent Reinforcement Learning: A Report on Challenges and Approaches	Jul 25, 2018	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available
Two-step reinforcement learning for model-free redesign of nonlinear optimal regulator	Mar 5, 2021	Offline RLreinforcement-learning	CodeCode Available
Model-free reinforcement learning with noisy actions for automated experimental control in optics	May 24, 2024	Reinforcement Learning (RL)	CodeCode Available
Reasoning and Generalization in RL: A Tool Use Perspective	Jul 3, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Reasoning about Counterfactuals to Improve Human Inverse Reinforcement Learning	Mar 3, 2022	counterfactualCounterfactual Reasoning	CodeCode Available

Show:10 25 50

← PrevPage 269 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified