Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5851–5875 of 15113 papers

Title	Date	Tasks	Status
Self-critical Sequence Training for Automatic Speech Recognition	Apr 13, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Self-Driving Car Racing: Application of Deep Reinforcement Learning	Oct 30, 2024	AI AgentAutonomous Driving	—Unverified
Self-driving scale car trained by Deep reinforcement learning	Sep 8, 2019	Autonomous DrivingDeep Reinforcement Learning	—Unverified
Self-Driving Telescopes: Autonomous Scheduling of Astronomical Observation Campaigns with Offline Reinforcement Learning	Nov 29, 2023	AstronomyOffline RL	—Unverified
Self-evolving Autoencoder Embedded Q-Network	Feb 18, 2024	Decision MakingReinforcement Learning (RL)	—Unverified
Self-Evolving Curriculum for LLM Reasoning	May 20, 2025	Code GenerationPolicy Gradient Methods	—Unverified
Self-Imitation Advantage Learning	Dec 22, 2020	Atari GamesImitation Learning	—Unverified
Self-Imitation Learning by Planning	Mar 25, 2021	Imitation LearningMotion Planning	—Unverified
Self-Imitation Learning from Demonstrations	Mar 21, 2022	Imitation LearningReinforcement Learning (RL)	—Unverified
Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement Learning	Mar 2, 2023	reinforcement-learningReinforcement Learning	—Unverified
Self-Inspection Method of Unmanned Aerial Vehicles in Power Plants Using Deep Q-Network Reinforcement Learning	Mar 16, 2023	Autonomous NavigationQ-Learning	—Unverified
Self-Learned Formula Synthesis in Set Theory	Dec 3, 2019	reinforcement-learningReinforcement Learning	—Unverified
Self-Learning Tuning for Post-Silicon Validation	Nov 17, 2021	reinforcement-learningReinforcement Learning	—Unverified
Self-optimizing adaptive optics control with Reinforcement Learning for high-contrast imaging	Aug 24, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
Self-organization in a distributed coordination game through heuristic rules	Jul 31, 2016	AttributeReinforcement Learning (RL)	—Unverified
Self-Organizing Maps as a Storage and Transfer Mechanism in Reinforcement Learning	Jul 19, 2018	reinforcement-learningReinforcement Learning	—Unverified
Self-Organizing Maps for Storage and Transfer of Knowledge in Reinforcement Learning	Nov 18, 2018	Continual Learningreinforcement-learning	—Unverified
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation	Feb 15, 2024	Image GenerationReinforcement Learning (RL)	—Unverified
Self-Play PSRO: Toward Optimal Populations in Two-Player Zero-Sum Games	Jul 13, 2022	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified
Self-Play with Adversarial Critic: Provable and Scalable Offline Alignment for Language Models	Jun 6, 2024	Offline RLreinforcement-learning	—Unverified
Self-Supervised Continuous Control without Policy Gradient	Jan 1, 2021	continuous-controlContinuous Control	—Unverified
Self-Supervised Exploration via Temporal Inconsistency in Reinforcement Learning	Aug 24, 2022	reinforcement-learningReinforcement Learning	—Unverified
Self-supervised Learning of Distance Functions for Goal-Conditioned Reinforcement Learning	Jul 5, 2019	reinforcement-learningReinforcement Learning	—Unverified
Relevance-Guided Modeling of Object Dynamics for Reinforcement Learning	Mar 3, 2020	Atari GamesDeep Reinforcement Learning	—Unverified
Self-Supervised Reinforcement Learning for Recommender Systems	Jun 10, 2020	Q-LearningRecommendation Systems	—Unverified

Show:10 25 50

← PrevPage 235 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified