Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6251–6275 of 15113 papers

Title	Date	Tasks	Status
Strategies for Using Proximal Policy Optimization in Mobile Puzzle Games	Jul 3, 2020	Reinforcement Learning (RL)	—Unverified
Strategising template-guided needle placement for MR-targeted prostate biopsy	Jul 21, 2022	AnatomyDecision Making	—Unverified
Strategy and Benchmark for Converting Deep Q-Networks to Event-Driven Spiking Neural Networks	Sep 30, 2020	Atari GamesDeep Reinforcement Learning	—Unverified
Stratified Experience Replay: Correcting Multiplicity Bias in Off-Policy Reinforcement Learning	Feb 22, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
Stratified Expert Cloning with Adaptive Selection for User Retention in Large-Scale Recommender Systems	Apr 8, 2025	Imitation LearningRecommendation Systems	—Unverified
Stratospheric Aerosol Injection as a Deep Reinforcement Learning Problem	May 17, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
Streaming Linear System Identification with Reverse Experience Replay	Mar 10, 2021	Reinforcement Learning (RL)Time Series Analysis	—Unverified
Streaming Traffic Flow Prediction Based on Continuous Reinforcement Learning	Dec 24, 2022	reinforcement-learningReinforcement Learning	—Unverified
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation	Apr 22, 2025	Reinforcement Learning (RL)Scheduling	—Unverified
Strict Subgoal Execution: Reliable Long-Horizon Planning in Hierarchical Reinforcement Learning	Jun 26, 2025	Decision MakingHierarchical Reinforcement Learning	—Unverified
S-TRIGGER: Continual State Representation Learning via Self-Triggered Generative Replay	Feb 25, 2019	Change DetectionContinual Learning	—Unverified
Striving for Simplicity in Off-Policy Deep Reinforcement Learning	Sep 25, 2019	Atari GamesDeep Reinforcement Learning	—Unverified
Strongly-polynomial time and validation analysis of policy gradient methods	Sep 28, 2024	Policy Gradient MethodsReinforcement Learning (RL)	—Unverified
Structural Credit Assignment in Neural Networks using Reinforcement Learning	Dec 1, 2021	reinforcement-learningReinforcement Learning	—Unverified
Structural Credit Assignment with Coordinated Exploration	Jul 25, 2023	Reinforcement Learning (RL)	—Unverified
Structural Return Maximization for Reinforcement Learning	May 12, 2014	Learning Theoryreinforcement-learning	—Unverified
Structural Similarity for Improved Transfer in Reinforcement Learning	Jul 27, 2022	Q-Learningreinforcement-learning	—Unverified
Structure-aware reinforcement learning for node-overload protection in mobile edge computing	Jun 29, 2021	Edge-computingreinforcement-learning	—Unverified
Structure-Aware Transformer Policy for Inhomogeneous Multi-Task Reinforcement Learning	Sep 29, 2021	Multi-Task Learningreinforcement-learning	—Unverified
Structured Dialogue Policy with Graph Neural Networks	Aug 1, 2018	Automatic Speech Recognition (ASR)Decision Making	—Unverified
Structured Graph Network for Constrained Robot Crowd Navigation with Low Fidelity Simulation	May 27, 2024	Reinforcement Learning (RL)	—Unverified
Structured Reinforcement Learning for Delay-Optimal Data Transmission in Dense mmWave Networks	Apr 25, 2024	FairnessMulti-Armed Bandits	—Unverified
Structured World Belief for Reinforcement Learning in POMDP	Jul 19, 2021	Inductive BiasObject	—Unverified
Structure-Enhanced Deep Reinforcement Learning for Optimal Transmission Scheduling	Nov 20, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified
Structure in Deep Reinforcement Learning: A Survey and Open Problems	Jun 28, 2023	Deep Reinforcement Learningreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 251 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified