Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1001–1025 of 15113 papers

Title	Date	Tasks	Status	Hype
Interactive Machine Learning of Musical Gesture	Nov 26, 2020	BIG-bench Machine LearningReinforcement Learning (RL)	CodeCode Available	1
Consistency Models as a Rich and Efficient Policy Class for Reinforcement Learning	Sep 29, 2023	Image GenerationOffline RL	CodeCode Available	1
Game-Theoretic Multiagent Reinforcement Learning	Nov 1, 2020	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	1
Interpretable Concept Bottlenecks to Align Reinforcement Learning Agents	Jan 11, 2024	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Optimization Methods for Interpretable Differentiable Decision Trees in Reinforcement Learning	Mar 22, 2019	reinforcement-learningReinforcement Learning	CodeCode Available	1
Conservative Q-Learning for Offline Reinforcement Learning	Jun 8, 2020	continuous-controlContinuous Control	CodeCode Available	1
Conservative Offline Distributional Reinforcement Learning	Jul 12, 2021	D4RLDistributional Reinforcement Learning	CodeCode Available	1
Zero-Shot Reinforcement Learning from Low Quality Data	Sep 26, 2023	Offline RLreinforcement-learning	CodeCode Available	1
Investigating practical linear temporal difference learning	Feb 28, 2016	reinforcement-learningReinforcement Learning	CodeCode Available	1
Investigating Pre-Training Objectives for Generalization in Vision-Based Reinforcement Learning	Jun 10, 2024	Atari GamesReinforcement Learning (RL)	CodeCode Available	1
Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning	Jun 10, 2025	Large Language Modelreinforcement-learning	CodeCode Available	1
Is Q-learning Provably Efficient?	Jul 10, 2018	Q-LearningReinforcement Learning	CodeCode Available	1
Connecting Deep-Reinforcement-Learning-based Obstacle Avoidance with Conventional Global Planners using Waypoint Generators	Apr 8, 2021	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Iterative Amortized Policy Optimization	Oct 20, 2020	continuous-controlContinuous Control	CodeCode Available	1
ConfuciuX: Autonomous Hardware Resource Assignment for DNN Accelerators using Reinforcement Learning	Sep 4, 2020	Bayesian Optimizationreinforcement-learning	CodeCode Available	1
Accelerating Deep Reinforcement Learning for Digital Twin Network Optimization with Evolutionary Strategies	Feb 1, 2022	Deep Reinforcement LearningManagement	CodeCode Available	1
Adaptive Transformers in RL	Apr 8, 2020	Partially Observable Reinforcement Learningreinforcement-learning	CodeCode Available	1
Analytical Lyapunov Function Discovery: An RL-based Generative Approach	Feb 4, 2025	Reinforcement Learning (RL)valid	CodeCode Available	1
Conservative and Adaptive Penalty for Model-Based Safe Reinforcement Learning	Dec 14, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	1
Jump-Start Reinforcement Learning	Apr 5, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	1
Analytic Manifold Learning: Unifying and Evaluating Representations for Continuous Control	Jun 15, 2020	continuous-controlContinuous Control	CodeCode Available	1
Kalman meets Bellman: Improving Policy Evaluation through Value Tracking	Feb 17, 2020	Gaussian ProcessesReinforcement Learning	CodeCode Available	1
Computational Performance of Deep Reinforcement Learning to find Nash Equilibria	Apr 26, 2021	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start	May 28, 2025	MathMultimodal Reasoning	CodeCode Available	1
Concise Reasoning via Reinforcement Learning	Apr 7, 2025	reinforcement-learningReinforcement Learning	CodeCode Available	1

Show:10 25 50

← PrevPage 41 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified