Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11401–11425 of 15113 papers

Title	Date	Tasks	Status
How Difficulty-Aware Staged Reinforcement Learning Enhances LLMs' Reasoning Capabilities: A Preliminary Experimental Study	Apr 1, 2025	Code GenerationMath	—Unverified
How does AI play football? An analysis of RL and real-world football strategies	Nov 24, 2021	Reinforcement Learning (RL)	—Unverified
How does the structure embedded in learning policy affect learning quadruped locomotion?	Aug 29, 2020	Reinforcement Learning (RL)	—Unverified
How Does Return Distribution in Distributional Reinforcement Learning Help Optimization?	Sep 29, 2022	Distributional Reinforcement Learningreinforcement-learning	—Unverified
How do Offline Measures for Exploration in Reinforcement Learning behave?	Oct 29, 2020	reinforcement-learningReinforcement Learning	—Unverified
How hard is my MDP?" The distribution-norm to the rescue"	Dec 1, 2014	Reinforcement LearningReinforcement Learning (RL)	—Unverified
How many weights are enough : can tensor factorization learn efficient policies ?	Sep 25, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning	May 30, 2025	ARCReinforcement Learning (RL)	—Unverified
How Much Do Unstated Problem Constraints Limit Deep Robotic Reinforcement Learning?	Sep 20, 2019	continuous-controlContinuous Control	—Unverified
How the level sampling process impacts zero-shot generalisation in deep reinforcement learning	Oct 5, 2023	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified
How to Combine Tree-Search Methods in Reinforcement Learning	Sep 6, 2018	reinforcement-learningReinforcement Learning	—Unverified
How to Discount Deep Reinforcement Learning: Towards New Dynamic Strategies	Dec 7, 2015	Deep Reinforcement Learningreinforcement-learning	—Unverified
How to Enable Uncertainty Estimation in Proximal Policy Optimization	Oct 7, 2022	Deep Reinforcement LearningOut of Distribution (OOD) Detection	—Unverified
How to Learn from Risk: Explicit Risk-Utility Reinforcement Learning for Efficient and Safe Driving Strategies	Mar 16, 2022	Autonomous DrivingAutonomous Vehicles	—Unverified
How to Leverage Unlabeled Data in Offline Reinforcement Learning	Feb 3, 2022	Offline RLreinforcement-learning	—Unverified
How to Organize your Deep Reinforcement Learning Agents: The Importance of Communication Topology	Nov 30, 2018	BIG-bench Machine LearningDeep Reinforcement Learning	—Unverified
How to Spend Your Robot Time: Bridging Kickstarting and Offline Reinforcement Learning for Vision-based Robotic Manipulation	May 6, 2022	Offline RLReinforcement Learning (RL)	—Unverified
Controlling Graph Dynamics with Reinforcement Learning and Graph Neural Networks	Oct 11, 2020	Marketingreinforcement-learning	—Unverified
How To Train Your HERON	Feb 20, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
How to Train Your Robot with Deep Reinforcement Learning; Lessons We've Learned	Feb 4, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
How to Use Reinforcement Learning to Facilitate Future Electricity Market Design? Part 1: A Paradigmatic Theory	May 4, 2023	PhilosophyReinforcement Learning (RL)	—Unverified
How to Use Reinforcement Learning to Facilitate Future Electricity Market Design? Part 2: Method and Applications	May 4, 2023	Reinforcement Learning (RL)	—Unverified
How You Act Tells a Lot: Privacy-Leakage Attack on Deep Reinforcement Learning	Apr 24, 2019	Autonomous Drivingcontinuous-control	—Unverified
HRLAIF: Improvements in Helpfulness and Harmlessness in Open-domain Reinforcement Learning From AI Feedback	Mar 13, 2024	Language ModellingLarge Language Model	—Unverified
Human-Agent Cooperation in Bridge Bidding	Nov 28, 2020	Imitation Learningreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 457 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified