SOTAVerified|Agents Browse Leaderboard About

Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1101–1110 of 15113 papers

Title	Date	Tasks	Status
Proposing Hierarchical Goal-Conditioned Policy Planning in Multi-Goal Reinforcement Learning	Jan 3, 2025	Multi-Goal Reinforcement LearningReinforcement Learning (RL)	—Unverified
Noise-Resilient Symbolic Regression with Dynamic Gating Reinforcement Learning	Jan 2, 2025	regressionreinforcement-learning	CodeCode Available
RaSS: Improving Denoising Diffusion Samplers with Reinforced Active Sampling Scheduler	Jan 1, 2025	DenoisingReinforcement Learning (RL)	—Unverified
Neural Motion Simulator Pushing the Limit of World Models in Reinforcement Learning	Jan 1, 2025	reinforcement-learningReinforcement Learning	—Unverified
A Graphical Approach to State Variable Selection in Off-policy Learning	Jan 1, 2025	Causal InferenceDimensionality Reduction	—Unverified
Hybridising Reinforcement Learning and Heuristics for Hierarchical Directed Arc Routing Problems	Jan 1, 2025	ARCreinforcement-learning	CodeCode Available
FORM: Learning Expressive and Transferable First-Order Logic Reward Machines	Dec 31, 2024	FormReinforcement Learning (RL)	—Unverified
Towards Unraveling and Improving Generalization in World Models	Dec 31, 2024	Reinforcement Learning (RL)	—Unverified
Weber-Fechner Law in Temporal Difference learning derived from Control as Inference	Dec 30, 2024	Reinforcement Learning (RL)	—Unverified
Isoperimetry is All We Need: Langevin Posterior Sampling for RL with Sublinear Regret	Dec 30, 2024	AllReinforcement Learning (RL)	—Unverified

Show:10 25 50

← PrevPage 111 of 1512Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified