Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 14301–14350 of 15113 papers

Title	Date	Tasks	Status
Deep Neuroevolution of Recurrent and Discrete World Models	Apr 28, 2019	Car RacingDecision Making	CodeCode Available
Intrinsically Efficient, Stable, and Bounded Off-Policy Evaluation for Reinforcement Learning	Jun 9, 2019	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Hybrid Transfer Reinforcement Learning: Provable Sample Efficiency from Shifted-Dynamics Data	Nov 6, 2024	Reinforcement Learning (RL)Transfer Reinforcement Learning	CodeCode Available
Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning	Dec 18, 2017	Deep Reinforcement LearningEvolutionary Algorithms	CodeCode Available
Learning Action-Transferable Policy with Action Embedding	Sep 5, 2019	Continuous ControlReinforcement Learning	CodeCode Available
LineFlow: A Framework to Learn Active Control of Production Lines	May 10, 2025	Reinforcement Learning (RL)	CodeCode Available
DRLViz: Understanding Decisions and Memory in Deep Reinforcement Learning	Sep 6, 2019	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Deep Multi-Objective Reinforcement Learning for Utility-Based Infrastructural Maintenance Optimization	Jun 10, 2024	Multi-Objective Reinforcement Learningreinforcement-learning	CodeCode Available
Learning Versatile Skills with Curriculum Masking	Oct 23, 2024	Decision MakingOffline RL	CodeCode Available
CityFlow: A Multi-Agent Reinforcement Learning Environment for Large Scale City Traffic Scenario	May 13, 2019	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available
Deep Multi-Agent Reinforcement Learning with Relevance Graphs	Nov 30, 2018	Deep Reinforcement LearningMulti-agent Reinforcement Learning	CodeCode Available
Deep Model-Based Reinforcement Learning via Estimated Uncertainty and Conservative Policy Optimization	Nov 28, 2019	Model-based Reinforcement Learningreinforcement-learning	CodeCode Available
DR-SAC: Distributionally Robust Soft Actor-Critic for Reinforcement Learning under Uncertainty	Jun 14, 2025	continuous-controlContinuous Control	CodeCode Available
Deep Learning in Neural Networks: An Overview	Apr 30, 2014	BIG-bench Machine LearningDeep Learning	CodeCode Available
Augmented Q Imitation Learning (AQIL)	Mar 31, 2020	Deep Reinforcement LearningImitation Learning	CodeCode Available
Hype or Heuristic? Quantum Reinforcement Learning for Join Order Optimisation	May 13, 2024	Low-latency processingreinforcement-learning	CodeCode Available
Q-Star Meets Scalable Posterior Sampling: Bridging Theory and Practice via HyperAgent	Feb 5, 2024	Atari GamesAtari Games 100k	CodeCode Available
Lipschitz Continuity in Model-based Reinforcement Learning	Apr 19, 2018	modelModel-based Reinforcement Learning	CodeCode Available
Learning to Listen, Read, and Follow: Score Following as a Reinforcement Learning Game	Jul 17, 2018	Decision MakingDeep Reinforcement Learning	CodeCode Available
Deep Learning-based Predictive Control of Battery Management for Frequency Regulation	Jan 4, 2022	ManagementModel Predictive Control	CodeCode Available
Circular Microalgae-Based Carbon Control for Net Zero	Feb 4, 2025	Reinforcement Learning (RL)	CodeCode Available
Hyperbolic Discounting and Learning over Multiple Horizons	Feb 19, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
A Hierarchical Architecture for Sequential Decision-Making in Autonomous Driving using Deep Reinforcement Learning	Jun 20, 2019	Autonomous DrivingDecision Making	CodeCode Available
Attentive Multi-Task Deep Reinforcement Learning	Jul 5, 2019	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Fourier Features in Reinforcement Learning with Neural Networks	Sep 29, 2021	reinforcement-learningReinforcement Learning	CodeCode Available
A Convergent Off-Policy Temporal Difference Algorithm	Nov 13, 2019	PredictionReinforcement Learning	CodeCode Available
A Greedy Approach to Adapting the Trace Parameter for Temporal Difference Learning	Jul 2, 2016	Meta-Learningreinforcement-learning	CodeCode Available
Dual Policy Distillation	Jun 7, 2020	continuous-controlContinuous Control	CodeCode Available
Attention-Based Model and Deep Reinforcement Learning for Distribution of Event Processing Tasks	Dec 7, 2021	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Dueling Network Architectures for Deep Reinforcement Learning	Nov 20, 2015	Atari GamesDeep Reinforcement Learning	CodeCode Available
Dueling Posterior Sampling for Preference-Based Reinforcement Learning	Aug 4, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Explicitly Encouraging Low Fractional Dimensional Trajectories Via Reinforcement Learning	Dec 21, 2020	Dimensionality Reductionreinforcement-learning	CodeCode Available
Deep learning-based numerical methods for high-dimensional parabolic partial differential equations and backward stochastic differential equations	Jun 15, 2017	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Deep Inverse Reinforcement Learning for Structural Evolution of Small Molecules	Jul 24, 2020	Drug DiscoveryGenerative Adversarial Network	CodeCode Available
Deep Feature Space: A Geometrical Perspective	Jun 30, 2020	Deep Reinforcement LearningDescriptive	CodeCode Available
Intrinsic fluctuations of reinforcement learning promote cooperation	Sep 1, 2022	reinforcement-learningReinforcement Learning	CodeCode Available
Attention-based Curiosity-driven Exploration in Deep Reinforcement Learning	Oct 23, 2019	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Hyperparameter Auto-tuning in Self-Supervised Robotic Learning	Oct 16, 2020	DiversityMulti-Task Learning	CodeCode Available
Dynamically Optimal Treatment Allocation	Apr 1, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Learning Preferences for Interactive Autonomy	Oct 19, 2022	Active LearningAutonomous Driving	CodeCode Available
Learning Principle of Least Action with Reinforcement Learning	Nov 24, 2020	Q-Learningreinforcement-learning	CodeCode Available
An Investigation of the Bias-Variance Tradeoff in Meta-Gradients	Sep 22, 2022	Meta-LearningReinforcement Learning (RL)	CodeCode Available
CHEQ-ing the Box: Safe Variable Impedance Learning for Robotic Polishing	Jan 14, 2025	Deep Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Act-Then-Measure: Reinforcement Learning for Partially Observable Environments with Active Measuring	Mar 14, 2023	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
Dynamic Computational Time for Visual Attention	Mar 30, 2017	reinforcement-learningReinforcement Learning	CodeCode Available
Hyperparameters in Contextual RL are Highly Situational	Dec 21, 2022	Hyperparameter Optimizationreinforcement-learning	CodeCode Available
FREED++: Improving RL Agents for Fragment-Based Molecule Generation by Thorough Reproduction	Jan 18, 2024	Molecular DockingReinforcement Learning (RL)	CodeCode Available
Dynamic Control of a Fiber Manufacturing Process using Deep Reinforcement Learning	Nov 23, 2019	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Free energy-based reinforcement learning using a quantum processor	May 29, 2017	reinforcement-learningReinforcement Learning	CodeCode Available
Intrinsic Rewards from Self-Organizing Feature Maps for Exploration in Reinforcement Learning	Feb 6, 2023	ClusteringDeep Reinforcement Learning	CodeCode Available

Show:10 25 50

← PrevPage 287 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified