Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 12901–12950 of 15113 papers

Title	Date	Tasks	Status
Reinforcement Learning Upside Down: Don't Predict Rewards -- Just Map Them to Actions	Dec 5, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Predicting Real-time Scientific Experiments Using Transformer models and Reinforcement Learning	Apr 25, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
Predicting optimal value functions by interpolating reward functions in scalarized multi-objective reinforcement learning	Sep 11, 2019	Autonomous VehiclesMulti-Objective Reinforcement Learning	CodeCode Available
On Instrumental Variable Regression for Deep Offline Policy Evaluation	May 21, 2021	regressionReinforcement Learning (RL)	CodeCode Available
Revisiting the Softmax Bellman Operator: New Benefits and New Perspective	Dec 2, 2018	Atari GamesQ-Learning	CodeCode Available
Reinforcement Learning under Threats	Sep 5, 2018	reinforcement-learningReinforcement Learning	CodeCode Available
MyCaffe: A Complete C# Re-Write of Caffe with Reinforcement Learning	Oct 4, 2018	Deep Learningreinforcement-learning	CodeCode Available
Towards Similarity Graphs Constructed by Deep Reinforcement Learning	Nov 27, 2019	Deep Reinforcement Learninggraph construction	CodeCode Available
Predicting Head Movement in Panoramic Video: A Deep Reinforcement Learning Approach	Oct 30, 2017	Deep Reinforcement LearningPosition	CodeCode Available
On Improving Deep Reinforcement Learning for POMDPs	Apr 26, 2017	Atari GamesDecision Making	CodeCode Available
ViZDoom Competitions: Playing Doom from Pixels	Sep 10, 2018	Navigatereinforcement-learning	CodeCode Available
Modular Networks Prevent Catastrophic Interference in Model-Based Multi-Task Reinforcement Learning	Nov 15, 2021	reinforcement-learningReinforcement Learning	CodeCode Available
Reward Certification for Policy Smoothed Reinforcement Learning	Dec 11, 2023	reinforcement-learningReinforcement Learning	CodeCode Available
Reward-Conditioned Policies	Dec 31, 2019	Imitation Learningreinforcement-learning	CodeCode Available
Text-Driven Video Acceleration: A Weakly-Supervised Reinforcement Learning Method	Mar 29, 2022	reinforcement-learningReinforcement Learning	CodeCode Available
Reinforcement Learning to Rank in E-Commerce Search Engine: Formalization, Analysis, and Application	Mar 2, 2018	Decision MakingLearning-To-Rank	CodeCode Available
Reward Delay Attacks on Deep Reinforcement Learning	Sep 8, 2022	Deep Reinforcement LearningQ-Learning	CodeCode Available
Reward Design For An Online Reinforcement Learning Algorithm Supporting Oral Self-Care	Aug 15, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
Single Episode Policy Transfer in Reinforcement Learning	Oct 17, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Reward Design for Reinforcement Learning Agents	Mar 27, 2025	Meta-Learningreinforcement-learning	CodeCode Available
On Credit Assignment in Hierarchical Reinforcement Learning	Mar 7, 2022	Hierarchical Reinforcement Learningreinforcement-learning	CodeCode Available
Reinforcement learning to learn quantum states for Heisenberg scaling accuracy	Dec 3, 2024	Meta-LearningQuantum Machine Learning	CodeCode Available
Single-partition adaptive Q-learning	Jul 14, 2020	Q-LearningReinforcement Learning (RL)	CodeCode Available
Reward Engineering for Generating Semi-structured Explanation	Sep 15, 2023	Explanation GenerationReinforcement Learning (RL)	CodeCode Available
Reward Engineering for Object Pick and Place Training	Jan 11, 2020	Objectreinforcement-learning	CodeCode Available
Reward Estimation for Variance Reduction in Deep Reinforcement Learning	May 9, 2018	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
On Context Distribution Shift in Task Representation Learning for Offline Meta RL	Apr 1, 2023	continuous-controlContinuous Control	CodeCode Available
Unified Off-Policy Learning to Rank: a Reinforcement Learning Perspective	Jun 13, 2023	Learning-To-RankOffline RL	CodeCode Available
Meta-Reinforcement Learning in Broad and Non-Parametric Environments	Aug 8, 2021	Meta Reinforcement Learningreinforcement-learning	CodeCode Available
Towards Solving Text-based Games by Producing Adaptive Action Spaces	Dec 3, 2018	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Mutual Information Based Knowledge Transfer Under State-Action Dimension Mismatch	Jun 12, 2020	Decision MakingDeep Reinforcement Learning	CodeCode Available
TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization	Jun 10, 2025	reinforcement-learningReinforcement Learning	CodeCode Available
Towards Symbolic Reinforcement Learning with Common Sense	Apr 23, 2018	Common Sense ReasoningDeep Reinforcement Learning	CodeCode Available
SiT: Symmetry-Invariant Transformers for Generalisation in Reinforcement Learning	Jun 21, 2024	reinforcement-learningReinforcement Learning	CodeCode Available
What is the Solution for State-Adversarial Multi-Agent Reinforcement Learning?	Dec 6, 2022	Deep Reinforcement LearningMulti-agent Reinforcement Learning	CodeCode Available
Predictable Reinforcement Learning Dynamics through Entropy Rate Minimization	Nov 30, 2023	Policy Gradient Methodsreinforcement-learning	CodeCode Available
Unified State Representation Learning under Data Augmentation	Sep 12, 2022	Data AugmentationDomain Adaptation	CodeCode Available
Rewarding Coreference Resolvers for Being Consistent with World Knowledge	Sep 5, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
On Catastrophic Interference in Atari 2600 Games	Feb 28, 2020	Atari GamesDeep Reinforcement Learning	CodeCode Available
PPO Dash: Improving Generalization in Deep Reinforcement Learning	Jul 15, 2019	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
OIL-AD: An Anomaly Detection Framework for Sequential Decision Sequences	Feb 7, 2024	Anomaly DetectionBehavioural cloning	CodeCode Available
The Arcade Learning Environment: An Evaluation Platform for General Agents	Jul 19, 2012	Atari GamesBenchmarking	CodeCode Available
PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation	Oct 5, 2018	continuous-controlContinuous Control	CodeCode Available
Mutation Testing of Deep Reinforcement Learning Based on Real Faults	Jan 13, 2023	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Skill Decision Transformer	Jan 31, 2023	D4RLDescriptive	CodeCode Available
Towards the Use of Deep Reinforcement Learning with Global Policy For Query-based Extractive Summarisation	Nov 10, 2017	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
MUSE: Modularizing Unsupervised Sense Embeddings	Apr 15, 2017	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Reward Learning for Efficient Reinforcement Learning in Extractive Document Summarisation	Jul 30, 2019	Decision MakingLearning-To-Rank	CodeCode Available
Reward learning from human preferences and demonstrations in Atari	Nov 15, 2018	Atari GamesDeep Reinforcement Learning	CodeCode Available
The Atari Data Scraper	Apr 11, 2021	Deep Reinforcement Learningreinforcement-learning	CodeCode Available

Show:10 25 50

← PrevPage 259 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified