Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5301–5325 of 15113 papers

Title	Date	Tasks	Status
Reward Design for Driver Repositioning Using Multi-Agent Reinforcement Learning	Feb 17, 2020	Bayesian OptimizationBilevel Optimization	—Unverified
Reward Design in Cooperative Multi-agent Reinforcement Learning for Packet Routing	Mar 5, 2020	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Reward-Directed Score-Based Diffusion Models via q-Learning	Sep 7, 2024	Q-LearningReinforcement Learning (RL)	—Unverified
Reward Estimation via State Prediction	Jan 1, 2018	Predictionreinforcement-learning	—Unverified
Reward Fine-Tuning Two-Step Diffusion Models via Learning Differentiable Latent-Space Surrogate Reward	Nov 22, 2024	Image GenerationReinforcement Learning (RL)	—Unverified
Reward-Free Attacks in Multi-Agent Reinforcement Learning	Dec 2, 2021	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Reward-Free Exploration for Reinforcement Learning	Feb 7, 2020	reinforcement-learningReinforcement Learning	—Unverified
Reward-Free Model-Based Reinforcement Learning with Linear Function Approximation	Oct 12, 2021	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Reward-Free Policy Space Compression for Reinforcement Learning	Feb 22, 2022	reinforcement-learningReinforcement Learning	—Unverified
Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov Decision Processes	Jan 26, 2022	Reinforcement Learning (RL)	—Unverified
Reward Function and Initial Values: Better Choices for Accelerated Goal-Directed Reinforcement Learning	Sep 1, 2016	reinforcement-learningReinforcement Learning (RL)	—Unverified
Reward Function Optimization of a Deep Reinforcement Learning Collision Avoidance System	Dec 1, 2022	Collision AvoidanceDeep Reinforcement Learning	—Unverified
Reward Gaming in Conditional Text Generation	Nov 16, 2022	Conditional Text GenerationReinforcement Learning (RL)	—Unverified
Task Aware Dreamer for Task Generalization in Reinforcement Learning	Mar 9, 2023	reinforcement-learningReinforcement Learning	—Unverified
Rewarding Doubt: A Reinforcement Learning Approach to Confidence Calibration of Large Language Models	Mar 4, 2025	Reinforcement Learning (RL)	—Unverified
Rewarding Episodic Visitation Discrepancy for Exploration in Reinforcement Learning	Sep 19, 2022	Atari GamesBenchmarking	—Unverified
Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning	Oct 10, 2024	Reinforcement Learning (RL)	—Unverified
Rewarding Semantic Similarity under Optimized Alignments for AMR-to-Text Generation	May 1, 2022	AMR-to-Text GenerationReinforcement Learning (RL)	—Unverified
Rewarding Smatch: Transition-Based AMR Parsing with Reinforcement Learning	May 31, 2019	AMR Parsingreinforcement-learning	—Unverified
Rewarding What Matters: Step-by-Step Reinforcement Learning for Task-Oriented Dialogue	Jun 20, 2024	Dialogue State TrackingReinforcement Learning (RL)	—Unverified
Reward is enough for convex MDPs	Jun 1, 2021	Reinforcement Learning (RL)	—Unverified
Reward Is Enough: LLMs Are In-Context Reinforcement Learners	May 21, 2025	Large Language ModelReinforcement Learning (RL)	—Unverified
Reward is not enough: can we liberate AI from the reinforcement learning paradigm?	Feb 3, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Reward Learning from Suboptimal Demonstrations with Applications in Surgical Electrocautery	Apr 10, 2024	Decision MakingImitation Learning	—Unverified
Reward Learning using Structural Motifs in Inverse Reinforcement Learning	Sep 25, 2022	reinforcement-learningReinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 213 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified