Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 12951–13000 of 15113 papers

Title	Date	Tasks	Status
The Atari Grand Challenge Dataset	May 31, 2017	Imitation LearningReinforcement Learning	CodeCode Available
Skill Machines: Temporal Logic Skill Composition in Reinforcement Learning	May 25, 2022	continuous-controlContinuous Control	CodeCode Available
Reward-Machine-Guided, Self-Paced Reinforcement Learning	May 25, 2023	reinforcement-learningReinforcement Learning	CodeCode Available
Variance Networks: When Expectation Does Not Meet Your Expectations	Mar 10, 2018	Efficient ExplorationReinforcement Learning	CodeCode Available
Reinforcement Learning to Disentangle Multiqubit Quantum States from Partial Observations	Jun 12, 2024	BenchmarkingDeep Reinforcement Learning	CodeCode Available
Reinforcement Learning through Asynchronous Advantage Actor-Critic on a GPU	Nov 18, 2016	CPUGPU	CodeCode Available
The Benefits of Model-Based Generalization in Reinforcement Learning	Nov 4, 2022	Model-based Reinforcement Learningreinforcement-learning	CodeCode Available
MDP Playground: An Analysis and Debug Testbed for Reinforcement Learning	Sep 17, 2019	MuJoCoOpenAI Gym	CodeCode Available
Meta-Reinforcement Learning for Reliable Communication in THz/VLC Wireless VR Networks	Jan 29, 2021	Meta-LearningMeta Reinforcement Learning	CodeCode Available
Modular Multitask Reinforcement Learning with Policy Sketches	Nov 6, 2016	continuous-controlContinuous Control	CodeCode Available
Learning to Play Text-based Adventure Games with Maximum Entropy Reinforcement Learning	Feb 21, 2023	Q-Learningreinforcement-learning	CodeCode Available
Post-processing Networks: Method for Optimizing Pipeline Task-oriented Dialogue Systems using Reinforcement Learning	Jul 25, 2022	reinforcement-learningReinforcement Learning	CodeCode Available
Reinforcement Learning on Human Decision Models for Uniquely Collaborative AI Teammates	Nov 18, 2021	Decision Makingreinforcement-learning	CodeCode Available
MDPGT: Momentum-based Decentralized Policy Gradient Tracking	Dec 6, 2021	Multi-agent Reinforcement LearningPolicy Gradient Methods	CodeCode Available
Off-Policy RL Algorithms Can be Sample-Efficient for Continuous Control via Sample Multiple Reuse	May 29, 2023	continuous-controlContinuous Control	CodeCode Available
Unifying Count-Based Exploration and Intrinsic Motivation	Jun 6, 2016	Atari GamesMontezuma's Revenge	CodeCode Available
SliceIt! -- A Dual Simulator Framework for Learning Robot Food Slicing	Apr 3, 2024	Reinforcement Learning (RL)	CodeCode Available
Posterior Sampling for Reinforcement Learning Without Episodes	Aug 9, 2016	reinforcement-learningReinforcement Learning	CodeCode Available
Variance Reduction based Experience Replay for Policy Optimization	Aug 25, 2022	Reinforcement Learning (RL)	CodeCode Available
SLM Lab: A Comprehensive Benchmark and Modular Software Framework for Reproducible Deep Reinforcement Learning	Dec 28, 2019	Atari GamesDeep Reinforcement Learning	CodeCode Available
The Chef's Hat Simulation Environment for Reinforcement-Learning-Based Agents	Mar 12, 2020	reinforcement-learningReinforcement Learning	CodeCode Available
Reinforcement Learning of Risk-Constrained Policies in Markov Decision Processes	Feb 27, 2020	Decision Makingreinforcement-learning	CodeCode Available
Posterior-regularized REINFORCE for Instance Selection in Distant Supervision	Apr 17, 2019	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Modular Multi-Objective Deep Reinforcement Learning with Decision Values	Apr 21, 2017	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
SmallPlan: Leverage Small Language Models for Sequential Path Planning with Simulation-Powered, LLM-Guided Distillation	May 1, 2025	HallucinationNavigate	CodeCode Available
Unifying Interpretability and Explainability for Alzheimer's Disease Progression Prediction	Jun 11, 2024	Reinforcement Learning (RL)	CodeCode Available
Reinforcement Learning of Musculoskeletal Control from Functional Simulations	Jul 13, 2020	AnatomyDeep Reinforcement Learning	CodeCode Available
Reward-Weighted Regression Converges to a Global Optimum	Jul 19, 2021	regressionReinforcement Learning (RL)	CodeCode Available
Reinforcement Learning of Active Vision for Manipulating Objects under Occlusions	Nov 20, 2018	Objectreinforcement-learning	CodeCode Available
Unifying PAC and Regret: Uniform PAC Bounds for Episodic Reinforcement Learning	Mar 22, 2017	reinforcement-learningReinforcement Learning	CodeCode Available
The configurable tree graph (CT-graph): measurable problems in partially observable and distal reward environments for lifelong reinforcement learning	Jan 21, 2023	Lifelong learningreinforcement-learning	CodeCode Available
Reinforcement Learning Neural Turing Machines - Revised	May 4, 2015	reinforcement-learningReinforcement Learning	CodeCode Available
MAHALO: Unifying Offline Reinforcement Learning and Imitation Learning from Observations	Mar 30, 2023	Decision MakingImitation Learning	CodeCode Available
Smart Imitator: Learning from Imperfect Clinical Decisions	Jan 10, 2025	Imitation LearningReinforcement Learning (RL)	CodeCode Available
Reinforcement Learning In Two Player Zero Sum Simultaneous Action Games	Oct 10, 2021	Imitation LearningMeta-Learning	CodeCode Available
MDP environments for the OpenAI Gym	Sep 26, 2017	OpenAI Gymreinforcement-learning	CodeCode Available
Smart Magnetic Microrobots Learn to Swim with Deep Reinforcement Learning	Jan 14, 2022	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Towards Understanding the Link Between Modularity and Performance in Neural Networks for Reinforcement Learning	May 13, 2022	Diversityreinforcement-learning	CodeCode Available
Toybox: A Suite of Environments for Experimental Evaluation of Deep Reinforcement Learning	May 7, 2019	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
ToyBox: Better Atari Environments for Testing Reinforcement Learning Agents	Dec 6, 2018	Atari Gamesreinforcement-learning	CodeCode Available
Post Reinforcement Learning Inference	Feb 17, 2023	counterfactualOff-policy evaluation	CodeCode Available
Reinforcement Learning Increases Wind Farm Power Production by Enabling Closed-Loop Collaborative Control	Jun 25, 2025	Bayesian OptimizationReinforcement Learning (RL)	CodeCode Available
Off-policy Evaluation in Doubly Inhomogeneous Environments	Jun 14, 2023	Offline RLOff-policy evaluation	CodeCode Available
The Distributional Reward Critic Framework for Reinforcement Learning Under Perturbed Rewards	Jan 11, 2024	continuous-controlContinuous Control	CodeCode Available
SME-Net: Sparse Motion Estimation for Parametric Video Prediction Through Reinforcement Learning	Oct 1, 2019	Motion CompensationMotion Estimation	CodeCode Available
SMILe: Scalable Meta Inverse Reinforcement Learning through Context-Conditional Policies	Dec 1, 2019	continuous-controlContinuous Control	CodeCode Available
Risk-Aware Active Inverse Reinforcement Learning	Jan 8, 2019	Active Learningreinforcement-learning	CodeCode Available
SMiRL: Surprise Minimizing Reinforcement Learning in Unstable Environments	Dec 11, 2019	Navigatereinforcement-learning	CodeCode Available
SMIX(λ): Enhancing Centralized Value Functions for Cooperative Multi-Agent Reinforcement Learning	Nov 11, 2019	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available
Risk-Aware Reward Shaping of Reinforcement Learning Agents for Autonomous Driving	Jun 5, 2023	Autonomous DrivingMotion Planning	CodeCode Available

Show:10 25 50

← PrevPage 260 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified