Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2951–2975 of 15113 papers

Title	Date	Tasks	Status
A Fast Convergence Theory for Offline Decision Making	Jun 3, 2024	Decision MakingOffline RL	—Unverified
ACE: An Actor Ensemble Algorithm for Continuous Control with Tree Search	Nov 6, 2018	continuous-controlContinuous Control	—Unverified
AACC: Asymmetric Actor-Critic in Contextual Reinforcement Learning	Aug 3, 2022	reinforcement-learningReinforcement Learning	—Unverified
Decoupled Learning of Environment Characteristics for Safe Exploration	Aug 9, 2017	reinforcement-learningReinforcement Learning	—Unverified
A Theory of Abstraction in Reinforcement Learning	Mar 1, 2022	reinforcement-learningReinforcement Learning	—Unverified
A Theoretical Connection Between Statistical Physics and Reinforcement Learning	Jun 24, 2019	Decision Makingreinforcement-learning	—Unverified
A Hybrid Approach Between Adversarial Generative Networks and Actor-Critic Policy Gradient for Low Rate High-Resolution Image Compression	Jun 11, 2019	DecoderImage Compression	—Unverified
A Theoretical Analysis of Optimistic Proximal Policy Optimization in Linear Markov Decision Processes	May 15, 2023	2kReinforcement Learning (RL)	—Unverified
A Human Mixed Strategy Approach to Deep Reinforcement Learning	Apr 5, 2018	Atari GamesDeep Reinforcement Learning	—Unverified
Adaptive Actor-Critic Based Optimal Regulation for Drift-Free Uncertain Nonlinear Systems	Jun 13, 2024	Reinforcement Learning (RL)	—Unverified
A Tensor Network Approach to Finite Markov Decision Processes	Feb 12, 2020	Reinforcement LearningReinforcement Learning (RL)	—Unverified
A Temporal-Pattern Backdoor Attack to Deep Reinforcement Learning	May 5, 2022	Backdoor AttackCloud Computing	—Unverified
A Human-Centered Safe Robot Reinforcement Learning Framework with Interactive Behaviors	Feb 25, 2023	reinforcement-learningReinforcement Learning (RL)	—Unverified
A Temporal Difference Reinforcement Learning Theory of Emotion: unifying emotion, cognition and adaptive behavior	Jul 24, 2018	Learning TheoryReinforcement Learning	—Unverified
A Human-Centered Data-Driven Planner-Actor-Critic Architecture via Logic Programming	Sep 18, 2019	General KnowledgeReinforcement Learning	—Unverified
Adaptive action supervision in reinforcement learning from real-world multi-agent demonstrations	May 22, 2023	Dynamic Time Warpingreinforcement-learning	—Unverified
ACDER: Augmented Curiosity-Driven Experience Replay	Nov 16, 2020	FetchPush-v1Reinforcement Learning (RL)	—Unverified
Decorrelated Soft Actor-Critic for Efficient Deep Reinforcement Learning	Jan 31, 2025	Deep Reinforcement Learningreinforcement-learning	—Unverified
Decoupled Reinforcement Learning to Stabilise Intrinsically-Motivated Exploration	Jul 19, 2021	reinforcement-learningReinforcement Learning	—Unverified
Decoupling Strategy and Surface Realization for Task-oriented Dialogues	Sep 29, 2021	Reinforcement Learning (RL)Style Transfer	—Unverified
A Technique to Create Weaker Abstract Board Game Agents via Reinforcement Learning	Sep 1, 2022	Board GamesQ-Learning	—Unverified
A Technical Study into Small Reasoning Language Models	Jun 16, 2025	Code GenerationComputational Efficiency	—Unverified
A Homogenization Approach for Gradient-Dominated Stochastic Optimization	Aug 21, 2023	ManagementReinforcement Learning (RL)	—Unverified
A Teacher-Student Framework for Maintainable Dialog Manager	Oct 1, 2018	Reinforcement LearningReinforcement Learning (RL)	—Unverified
A Taxonomy of Similarity Metrics for Markov Decision Processes	Mar 8, 2021	Reinforcement Learning (RL)Transfer Learning	—Unverified

Show:10 25 50

← PrevPage 119 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified