SOTAVerified|Agents Browse Leaderboard About Blog

Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2241–2250 of 15113 papers

Title	Date	Tasks	Status	Hype
Efficient Pressure: Improving efficiency for signalized intersections	Dec 4, 2021	Reinforcement Learning (RL)Traffic Signal Control	CodeCode Available	1
Efficient Recurrent Off-Policy RL Requires a Context-Encoder-Specific Learning Rate	May 24, 2024	Decision MakingReinforcement Learning (RL)	CodeCode Available	1
Concise Reasoning via Reinforcement Learning	Apr 7, 2025	reinforcement-learningReinforcement Learning	CodeCode Available	1
Efficient Symptom Inquiring and Diagnosis via Adaptive Alignment of Reinforcement Learning and Classification	Dec 1, 2021	Decision MakingDiagnostic	CodeCode Available	1
Constrained episodic reinforcement learning in concave-convex and knapsack settings	Jun 9, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	1
Efficient Wasserstein Natural Gradients for Reinforcement Learning	Oct 12, 2020	Policy Gradient Methodsreinforcement-learning	CodeCode Available	1
Contrastive Retrospection: honing in on critical steps for rapid learning and generalization in RL	Oct 12, 2022	Contrastive LearningOut-of-Distribution Generalization	CodeCode Available	1
DataLight: Offline Data-Driven Traffic Signal Control	Mar 20, 2023	Offline RLReinforcement Learning (RL)	CodeCode Available	1
Evolutionary Planning in Latent Space	Nov 23, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	1
Improved Representation of Asymmetrical Distances with Interval Quasimetric Embeddings	Nov 28, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	1

Show:10 25 50

← PrevPage 225 of 1512Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified