Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3401–3425 of 15113 papers

Title	Date	Tasks	Status
Digital Human Interactive Recommendation Decision-Making Based on Reinforcement Learning	Oct 6, 2022	Decision MakingGraph Embedding	—Unverified
DeepEdge: A Deep Reinforcement Learning based Task Orchestrator for Edge Computing	Oct 5, 2021	Deep Reinforcement LearningEdge-computing	—Unverified
Beyond Fine-Tuning: Transferring Behavior in Reinforcement Learning	Feb 24, 2021	reinforcement-learningReinforcement Learning	—Unverified
Courteous Behavior of Automated Vehicles at Unsignalized Intersections via Reinforcement Learning	Jun 11, 2021	Autonomous VehiclesCollision Avoidance	—Unverified
Agent Environment Cycle Games	Sep 28, 2020	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
A Kernel-Based Approach to Non-Stationary Reinforcement Learning in Metric Spaces	Jul 9, 2020	reinforcement-learningReinforcement Learning (RL)	—Unverified
AdaCred: Adaptive Causal Decision Transformers with Feature Crediting	Dec 19, 2024	AttributeImitation Learning	—Unverified
AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning	May 22, 2025	Mathreinforcement-learning	—Unverified
A study of first-passage time minimization via Q-learning in heated gridworlds	Oct 5, 2021	Q-Learningreinforcement-learning	—Unverified
DeepForm: Reasoning Large Language Model for Communication System Formulation	Jun 10, 2025	Language ModelingLanguage Modelling	—Unverified
Deep Reinforcement Learning Models Predict Visual Responses in the Brain: A Preliminary Result	Jun 18, 2021	Deep Reinforcement LearningObject Recognition	—Unverified
DeepGait: Planning and Control of Quadrupedal Gaits using Deep Reinforcement Learning	Sep 18, 2019	Deep Reinforcement LearningMotion Planning	—Unverified
Deep Generative Models with Learnable Knowledge Constraints	Jun 26, 2018	Image GenerationReinforcement Learning	—Unverified
Deep Graph Convolutional Reinforcement Learning for Financial Portfolio Management -- DeepPocket	May 6, 2021	Managementreinforcement-learning	—Unverified
Deep Hedging: Continuous Reinforcement Learning for Hedging of General Portfolios across Multiple Risk Aversions	Jul 15, 2022	Reinforcement Learning (RL)	—Unverified
Deep Hedging of Derivatives Using Reinforcement Learning	Mar 29, 2021	Positionreinforcement-learning	—Unverified
Deep Hedging with Market Impact	Feb 20, 2024	Deep Reinforcement Learningreinforcement-learning	—Unverified
Deep Hierarchical Reinforcement Learning Algorithm in Partially Observable Markov Decision Processes	May 11, 2018	Deep Reinforcement LearningHierarchical Reinforcement Learning	—Unverified
Deep Hierarchical Reinforcement Learning Based Recommendations via Multi-goals Abstraction	Mar 22, 2019	Hierarchical Reinforcement LearningRecommendation Systems	—Unverified
A multi-agent reinforcement learning model of reputation and cooperation in human groups	Mar 8, 2021	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Deep Interactive Bayesian Reinforcement Learning via Meta-Learning	Jan 11, 2021	Meta-Learningreinforcement-learning	—Unverified
Deep Interactive Reinforcement Learning for Path Following of Autonomous Underwater Vehicle	Jan 10, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Countering Language Drift via Grounding	Sep 27, 2018	Language ModelingLanguage Modelling	—Unverified
A Study of Continual Learning Methods for Q-Learning	Jun 8, 2022	Continual LearningQ-Learning	—Unverified
A Study of AI Population Dynamics with Million-agent Reinforcement Learning	Sep 13, 2017	Deep Reinforcement Learningreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 137 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified