Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 13651–13700 of 15113 papers

Title	Date	Tasks	Status
QuaRL: Quantization for Fast and Environmentally Sustainable Reinforcement Learning	Oct 2, 2019	Decision MakingDeep Reinforcement Learning	CodeCode Available
Quantile-Based Deep Reinforcement Learning using Two-Timescale Policy Gradient Algorithms	May 12, 2023	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation	Jun 27, 2018	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Swift Hydra: Self-Reinforcing Generative Framework for Anomaly Detection with Multiple Mamba Models	Mar 9, 2025	Anomaly DetectionMamba	CodeCode Available
SwiftRL: Towards Efficient Reinforcement Learning on Real Processing-In-Memory Systems	May 7, 2024	CPUGPU	CodeCode Available
Swim: A General-Purpose, High-Performing, and Efficient Activation Function for Locomotion Control Tasks	Mar 5, 2023	continuous-controlContinuous Control	CodeCode Available
Vision-based Navigation Using Deep Reinforcement Learning	Aug 8, 2019	Deep Reinforcement LearningEfficient Neural Network	CodeCode Available
More Efficient Randomized Exploration for Reinforcement Learning via Approximate Sampling	Jun 18, 2024	reinforcement-learningReinforcement Learning	CodeCode Available
Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic	Nov 7, 2016	continuous-controlContinuous Control	CodeCode Available
Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable Grid Environments	Aug 13, 2021	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
MORE-3S:Multimodal-based Offline Reinforcement Learning with Shared Semantic Spaces	Feb 20, 2024	Decision MakingOffline RL	CodeCode Available
NerveNet: Learning Structured Policy with Graph Neural Networks	Jan 1, 2018	Benchmarkingcontinuous-control	CodeCode Available
Switching to Discriminative Image Captioning by Relieving a Bottleneck of Reinforcement Learning	Dec 6, 2022	Image Captioningreinforcement-learning	CodeCode Available
Towards Diverse and Accurate Image Captions via Reinforcing Determinantal Point Process	Aug 14, 2019	DiversityImage Captioning	CodeCode Available
Towards Dynamic Trend Filtering through Trend Point Detection with Reinforcement Learning	Jun 6, 2024	Reinforcement Learning (RL)Time Series	CodeCode Available
Neighborhood Mixup Experience Replay: Local Convex Interpolation for Improved Sample Efficiency in Continuous Control Tasks	May 18, 2022	continuous-controlContinuous Control	CodeCode Available
Optimising Lockdown Policies for Epidemic Control using Reinforcement Learning	Mar 31, 2020	reinforcement-learningReinforcement Learning	CodeCode Available
Towards Effective Context for Meta-Reinforcement Learning: an Approach based on Contrastive Learning	Sep 29, 2020	Contrastive LearningMeta Reinforcement Learning	CodeCode Available
Constructing Parsimonious Analytic Models for Dynamic Systems via Symbolic Regression	Mar 27, 2019	Decision Makingregression	CodeCode Available
Towards Effective Planning Strategies for Dynamic Opinion Networks	Oct 18, 2024	BlockingMisinformation	CodeCode Available
Optimality-based Analysis of XCSF Compaction in Discrete Reinforcement Learning	Sep 3, 2020	OpenAI Gymreinforcement-learning	CodeCode Available
Scaling All-Goals Updates in Reinforcement Learning Using Convolutional Neural Networks	Oct 6, 2018	AllMontezuma's Revenge	CodeCode Available
Near-Optimal Representation Learning for Hierarchical Reinforcement Learning	Oct 2, 2018	2D Human Pose Estimationcontinuous-control	CodeCode Available
Optimal foraging strategies can be learned	Mar 10, 2023	reinforcement-learningReinforcement Learning	CodeCode Available
QLBS: Q-Learner in the Black-Scholes(-Merton) Worlds	Dec 13, 2017	BenchmarkingModel-based Reinforcement Learning	CodeCode Available
QBSO-FS: A Reinforcement Learning Based Bee Swarm Optimization Metaheuristic for Feature Selection	May 16, 2019	feature selectionMulti-agent Reinforcement Learning	CodeCode Available
Optimal Policies Tend to Seek Power	Dec 3, 2019	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales	May 27, 2024	Atari GamesMuJoCo	CodeCode Available
PyTupli: A Scalable Infrastructure for Collaborative Offline Reinforcement Learning Projects	May 22, 2025	Offline RLReinforcement Learning (RL)	CodeCode Available
PyRep: Bringing V-REP to Deep Robot Learning	Jun 26, 2019	Imitation Learningreinforcement-learning	CodeCode Available
Optimal Attack and Defense for Reinforcement Learning	Nov 30, 2023	reinforcement-learningReinforcement Learning	CodeCode Available
Umbrella Reinforcement Learning -- computationally efficient tool for hard non-linear problems	Nov 21, 2024	Computational EfficiencyEfficient Exploration	CodeCode Available
USPR: Learning a Unified Solver for Profiled Routing	May 8, 2025	Computational EfficiencyDecoder	CodeCode Available
UNAS: Differentiable Architecture Search Meets Reinforcement Learning	Dec 16, 2019	Neural Architecture Searchreinforcement-learning	CodeCode Available
Mid-flight Propeller Failure Detection and Control of Propeller-deficient Quadcopter using Reinforcement Learning	Feb 26, 2020	Fault Detectionreinforcement-learning	CodeCode Available
MicroRacer: a didactic environment for Deep Reinforcement Learning	Mar 20, 2022	Car RacingDeep Reinforcement Learning	CodeCode Available
Optimal Adaptive Prediction Intervals for Electricity Load Forecasting in Distribution Systems via Reinforcement Learning	May 18, 2022	Load ForecastingPrediction Intervals	CodeCode Available
Towards Empathic Deep Q-Learning	Jun 26, 2019	EthicsQ-Learning	CodeCode Available
Towards End-to-End Learning for Dialog State Tracking and Management using Deep Reinforcement Learning	Jun 8, 2016	Deep Reinforcement Learningdialog state tracking	CodeCode Available
Decomposition Methods with Deep Corrections for Reinforcement Learning	Feb 6, 2018	Autonomous DrivingDecision Making	CodeCode Available
Selective Token Generation for Few-shot Natural Language Generation	Sep 17, 2022	Data-to-Text GenerationLanguage Modeling	CodeCode Available
OptiGAN: Generative Adversarial Networks for Goal Optimized Sequence Generation	Apr 16, 2020	Diversityreinforcement-learning	CodeCode Available
Synthesis from Satisficing and Temporal Goals	May 20, 2022	Reinforcement Learning (RL)	CodeCode Available
Synthesising Reinforcement Learning Policies through Set-Valued Inductive Rule Learning	Jun 10, 2021	reinforcement-learningReinforcement Learning	CodeCode Available
Psychlab: A Psychology Laboratory for Deep Reinforcement Learning Agents	Jan 24, 2018	Change DetectionDeep Reinforcement Learning	CodeCode Available
OptAGAN: Entropy-based finetuning on text VAE-GAN	Sep 1, 2021	DecoderDiversity	CodeCode Available
Self-adaptive Torque Vectoring Controller Using Reinforcement Learning	Mar 27, 2021	Frictionreinforcement-learning	CodeCode Available
Towards End-to-End Reinforcement Learning of Dialogue Agents for Information Access	Sep 3, 2016	reinforcement-learningReinforcement Learning	CodeCode Available
Synthesizing Neural Network Controllers with Probabilistic Model based Reinforcement Learning	Mar 6, 2018	Model-based Reinforcement Learningreinforcement-learning	CodeCode Available
Towards Evaluating Adaptivity of Model-Based Reinforcement Learning Methods	Apr 25, 2022	Model-based Reinforcement Learningreinforcement-learning	CodeCode Available

Show:10 25 50

← PrevPage 274 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified