Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 12651–12700 of 15113 papers

Title	Date	Tasks	Status
Steering Your Diffusion Policy with Latent Space Reinforcement Learning	Jun 18, 2025	reinforcement-learningReinforcement Learning	—Unverified
Stein Variational Goal Generation for adaptive Exploration in Multi-Goal Reinforcement Learning	Jun 14, 2022	Multi-Goal Reinforcement Learningreinforcement-learning	—Unverified
Stein Variational Policy Gradient	Apr 7, 2017	Bayesian Inferencecontinuous-control	—Unverified
Stepping Out of the Shadows: Reinforcement Learning in Shadow Mode	Oct 30, 2024	reinforcement-learningReinforcement Learning	—Unverified
Step-wise Adaptive Integration of Supervised Fine-tuning and Reinforcement Learning for Task-Specific LLMs	May 19, 2025	Mathematical ReasoningReinforcement Learning (RL)	—Unverified
Stigmergic Independent Reinforcement Learning for Multi-Agent Collaboration	Nov 28, 2019	reinforcement-learningReinforcement Learning	—Unverified
Stochastically Dominant Distributional Reinforcement Learning	May 17, 2019	Distributional Reinforcement Learningreinforcement-learning	—Unverified
Stochastic Approximation of Gaussian Free Energy for Risk-Sensitive Reinforcement Learning	May 21, 2021	Decision Makingreinforcement-learning	—Unverified
Stochastic Approximation with Markov Noise: Analysis and applications in reinforcement learning	Apr 8, 2020	reinforcement-learningReinforcement Learning (RL)	—Unverified
Stochastic Constraint Programming as Reinforcement Learning	Apr 24, 2017	reinforcement-learningReinforcement Learning	—Unverified
Stochastic convex optimization for provably efficient apprenticeship learning	Dec 31, 2021	Imitation Learningreinforcement-learning	—Unverified
Stochastic evolution in populations of ideas	Sep 14, 2016	reinforcement-learningReinforcement Learning (RL)	—Unverified
Stochastic Gradient Descent with Dependent Data for Offline Reinforcement Learning	Feb 6, 2022	Q-Learningreinforcement-learning	—Unverified
Black-box Optimizer with Implicit Natural Gradient	Oct 9, 2019	Reinforcement LearningReinforcement Learning (RL)	—Unverified
Stochastic Intervention for Causal Inference via Reinforcement Learning	May 28, 2021	Causal InferenceDecision Making	—Unverified
Stochastic Inverse Reinforcement Learning	May 21, 2019	reinforcement-learningReinforcement Learning	—Unverified
Stochastic Inverse Reinforcement Learning	Oct 23, 2020	reinforcement-learningReinforcement Learning	—Unverified
Stochastic Learning Approach to Binary Optimization for Optimal Design of Experiments	Jan 15, 2021	Experimental DesignReinforcement Learning (RL)	—Unverified
Stochastic Lipschitz Q-Learning	Apr 24, 2019	Q-LearningReinforcement Learning	—Unverified
Stochastic Primal-Dual Methods and Sample Complexity of Reinforcement Learning	Dec 8, 2016	reinforcement-learningReinforcement Learning	—Unverified
Stochastic Q-learning for Large Discrete Action Spaces	May 16, 2024	Decision MakingQ-Learning	—Unverified
Stochastic Reinforcement Learning	Feb 11, 2019	reinforcement-learningReinforcement Learning	—Unverified
Stochastic Second-Order Methods Improve Best-Known Sample Complexity of SGD for Gradient-Dominated Function	May 25, 2022	Policy Gradient MethodsReinforcement Learning (RL)	—Unverified
Stochastic Variance Reduction for Deep Q-learning	May 20, 2019	Deep Reinforcement LearningQ-Learning	—Unverified
Stochastic Variance Reduction for Policy Gradient Estimation	Oct 17, 2017	continuous-controlContinuous Control	—Unverified
Stochastic Variance Reduction Methods for Policy Evaluation	Feb 25, 2017	Reinforcement LearningReinforcement Learning (RL)	—Unverified
Stock market microstructure inference via multi-agent reinforcement learning	Sep 17, 2019	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Stock Trading Optimization through Model-based Reinforcement Learning with Resistance Support Relative Strength	May 30, 2022	Decision MakingModel-based Reinforcement Learning	—Unverified
Model Based Reinforcement Learning with Non-Gaussian Environment Dynamics and its Application to Portfolio Optimization	Jan 23, 2023	Algorithmic TradingDecision Making	—Unverified
Stop Regressing: Training Value Functions via Classification for Scalable Deep RL	Mar 6, 2024	Atari GamesDeep Reinforcement Learning	—Unverified
Storage Efficient and Dynamic Flexible Runtime Channel Pruning via Deep Reinforcement Learning	Dec 1, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Story Shaping: Teaching Agents Human-like Behavior with Stories	Jan 24, 2023	reinforcement-learningReinforcement Learning	—Unverified
Straight to the point: reinforcement learning for user guidance in ultrasound	Mar 2, 2019	AnatomyDiagnostic	—Unverified
Strategically Linked Decisions in Long-Term Planning and Reinforcement Learning	May 22, 2025	Reinforcement Learning (RL)	—Unverified
Strategically-timed State-Observation Attacks on Deep Reinforcement Learning Agents	Jun 18, 2021	Adversarial Attackcontinuous-control	—Unverified
Strategic bidding in freight transport using deep reinforcement learning	Feb 18, 2021	Deep Reinforcement LearningFairness	—Unverified
Strategic Maneuver and Disruption with Reinforcement Learning Approaches for Multi-Agent Coordination	Mar 17, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Optimizing Trading Strategies in Quantitative Markets using Multi-Agent Reinforcement Learning	Mar 15, 2023	Decision MakingMulti-agent Reinforcement Learning	—Unverified
Strategies for Using Proximal Policy Optimization in Mobile Puzzle Games	Jul 3, 2020	Reinforcement Learning (RL)	—Unverified
Strategising template-guided needle placement for MR-targeted prostate biopsy	Jul 21, 2022	AnatomyDecision Making	—Unverified
Strategy and Benchmark for Converting Deep Q-Networks to Event-Driven Spiking Neural Networks	Sep 30, 2020	Atari GamesDeep Reinforcement Learning	—Unverified
Stratified Experience Replay: Correcting Multiplicity Bias in Off-Policy Reinforcement Learning	Feb 22, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
Stratified Expert Cloning with Adaptive Selection for User Retention in Large-Scale Recommender Systems	Apr 8, 2025	Imitation LearningRecommendation Systems	—Unverified
Stratospheric Aerosol Injection as a Deep Reinforcement Learning Problem	May 17, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
Streaming Linear System Identification with Reverse Experience Replay	Mar 10, 2021	Reinforcement Learning (RL)Time Series Analysis	—Unverified
Streaming Traffic Flow Prediction Based on Continuous Reinforcement Learning	Dec 24, 2022	reinforcement-learningReinforcement Learning	—Unverified
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation	Apr 22, 2025	Reinforcement Learning (RL)Scheduling	—Unverified
Strict Subgoal Execution: Reliable Long-Horizon Planning in Hierarchical Reinforcement Learning	Jun 26, 2025	Decision MakingHierarchical Reinforcement Learning	—Unverified
S-TRIGGER: Continual State Representation Learning via Self-Triggered Generative Replay	Feb 25, 2019	Change DetectionContinual Learning	—Unverified
Striving for Simplicity in Off-Policy Deep Reinforcement Learning	Sep 25, 2019	Atari GamesDeep Reinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 254 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified