SOTAVerified|Agents Browse Leaderboard About Blog

Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2951–2960 of 15113 papers

Title	Date	Tasks	Status
AACC: Asymmetric Actor-Critic in Contextual Reinforcement Learning	Aug 3, 2022	reinforcement-learningReinforcement Learning	—Unverified
Decision SpikeFormer: Spike-Driven Transformer for Decision Making	Apr 4, 2025	D4RLDecision Making	—Unverified
A Theory of Abstraction in Reinforcement Learning	Mar 1, 2022	reinforcement-learningReinforcement Learning	—Unverified
A Theoretical Connection Between Statistical Physics and Reinforcement Learning	Jun 24, 2019	Decision Makingreinforcement-learning	—Unverified
A Hybrid Approach Between Adversarial Generative Networks and Actor-Critic Policy Gradient for Low Rate High-Resolution Image Compression	Jun 11, 2019	DecoderImage Compression	—Unverified
A Theoretical Analysis of Optimistic Proximal Policy Optimization in Linear Markov Decision Processes	May 15, 2023	2kReinforcement Learning (RL)	—Unverified
A Human Mixed Strategy Approach to Deep Reinforcement Learning	Apr 5, 2018	Atari GamesDeep Reinforcement Learning	—Unverified
Adaptive Actor-Critic Based Optimal Regulation for Drift-Free Uncertain Nonlinear Systems	Jun 13, 2024	Reinforcement Learning (RL)	—Unverified
A Tensor Network Approach to Finite Markov Decision Processes	Feb 12, 2020	Reinforcement LearningReinforcement Learning (RL)	—Unverified
A Temporal-Pattern Backdoor Attack to Deep Reinforcement Learning	May 5, 2022	Backdoor AttackCloud Computing	—Unverified

Show:10 25 50

← PrevPage 296 of 1512Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified