Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2451–2475 of 15113 papers

Title	Date	Tasks	Status	Score
Learning Bellman Complete Representations for Offline Policy Evaluation	Jul 12, 2022	continuous-controlContinuous Control	CodeCode Available	5
Learning Action-Transferable Policy with Action Embedding	Sep 5, 2019	Continuous ControlReinforcement Learning	CodeCode Available	5
Learning Actionable Representations with Goal-Conditioned Policies	Nov 19, 2018	Decision MakingHierarchical Reinforcement Learning	CodeCode Available	5
Learning a model is paramount for sample efficiency in reinforcement learning control of PDEs	Feb 14, 2023	Reinforcement Learning (RL)	CodeCode Available	5
Learning Curriculum Policies for Reinforcement Learning	Dec 1, 2018	reinforcement-learningReinforcement Learning	CodeCode Available	5
AutoRL Hyperparameter Landscapes	Apr 5, 2023	AutoMLHyperparameter Optimization	CodeCode Available	5
Autoregressive Policies for Continuous Control Deep Reinforcement Learning	Mar 27, 2019	continuous-controlContinuous Control	CodeCode Available	5
A Meta Reinforcement Learning Approach for Predictive Autoscaling in the Cloud	May 31, 2022	CPUDecision Making	CodeCode Available	5
Auto-Pipeline: Synthesizing Complex Data Pipelines By-Target Using Reinforcement Learning and Search	Jun 25, 2021	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	5
A Meta-MDP Approach to Exploration for Lifelong Reinforcement Learning	Feb 3, 2019	reinforcement-learningReinforcement Learning	CodeCode Available	5
Adaptive Partial Scanning Transmission Electron Microscopy with Reinforcement Learning	Apr 6, 2020	compressed sensingreinforcement-learning	CodeCode Available	5
Latent Safety-Constrained Policy Approach for Safe Offline Reinforcement Learning	Dec 11, 2024	Autonomous DrivingOffline RL	CodeCode Available	5
Latent Intention Dialogue Models	May 29, 2017	reinforcement-learningReinforcement Learning	CodeCode Available	5
Latent Guided Sampling for Combinatorial Optimization	Jun 4, 2025	Combinatorial OptimizationDrug Discovery	CodeCode Available	5
Adaptive Ordered Information Extraction with Deep Reinforcement Learning	Jun 19, 2023	Deep Reinforcement LearningEvent Extraction	CodeCode Available	5
LatentPoison - Adversarial Attacks On The Latent Space	Nov 8, 2017	DecoderGeneral Classification	CodeCode Available	5
Autonomous Soft Tissue Retraction Using Demonstration-Guided Reinforcement Learning	Sep 2, 2023	reinforcement-learningReinforcement Learning	CodeCode Available	5
Large Language Models are Autonomous Cyber Defenders	May 7, 2025	Reinforcement Learning (RL)	CodeCode Available	5
Large Language Model-Driven Curriculum Design for Mobile Networks	May 28, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Large Language Models are Biased Reinforcement Learners	May 19, 2024	Decision MakingIn-Context Learning	CodeCode Available	5
Learning data augmentation policies using augmented random search	Nov 12, 2018	Data Augmentationreinforcement-learning	CodeCode Available	5
Autonomous robotic nanofabrication with reinforcement learning	Feb 27, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	5
Language Model Alignment with Elastic Reset	Dec 6, 2023	ChatbotLanguage Modeling	CodeCode Available	5
Language as an Abstraction for Hierarchical Deep Reinforcement Learning	Jun 18, 2019	Deep Reinforcement LearningInstruction Following	CodeCode Available	5
Langevin DQN	Feb 17, 2020	Computational EfficiencyOpen-Ended Question Answering	CodeCode Available	5

Show:10 25 50

← PrevPage 99 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified