SOTAVerified|Agents Browse Leaderboard About Blog

Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3241–3250 of 15113 papers

Title	Date	Tasks	Status	Hype
Genes in Intelligent Agents	Jun 17, 2023	reinforcement-learningReinforcement Learning	CodeCode Available	0
Do as I can, not as I get	Jun 17, 2023	Knowledge GraphsMulti-modal Knowledge Graph	—Unverified	0
The False Dawn: Reevaluating Google's Reinforcement Learning for Chip Macro Placement	Jun 16, 2023	reinforcement-learningReinforcement Learning (RL)	—Unverified	0
Bootstrapped Representations in Reinforcement Learning	Jun 16, 2023	Auxiliary Learningreinforcement-learning	—Unverified	0
Jumanji: a Diverse Suite of Scalable Reinforcement Learning Environments in JAX	Jun 16, 2023	Decision Makingreinforcement-learning	CodeCode Available	2
Semi-Offline Reinforcement Learning for Optimized Text Generation	Jun 16, 2023	Offline RLreinforcement-learning	CodeCode Available	0
Temporal Difference Learning with Experience Replay	Jun 16, 2023	Reinforcement Learning (RL)	—Unverified	0
Low-Switching Policy Gradient with Exploration via Online Sensitivity Sampling	Jun 15, 2023	Reinforcement Learning (RL)Sensitivity	—Unverified	0
Offline Multi-Agent Reinforcement Learning with Coupled Value Factorization	Jun 15, 2023	ManagementMulti-agent Reinforcement Learning	—Unverified	0
Granger Causal Interaction Skill Chains	Jun 15, 2023	reinforcement-learningReinforcement Learning (RL)	—Unverified	0

Show:10 25 50

← PrevPage 325 of 1512Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified