Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6201–6225 of 15113 papers

Title	Date	Tasks	Status
Statistical CSI-based Beamforming for RIS-Aided Multiuser MISO Systems using Deep Reinforcement Learning	Sep 3, 2022	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified
Statistical Guarantees for Lifelong Reinforcement Learning using PAC-Bayes Theory	Nov 1, 2024	reinforcement-learningReinforcement Learning	—Unverified
Statistical Inference After Adaptive Sampling for Longitudinal Data	Feb 14, 2022	reinforcement-learningReinforcement Learning	—Unverified
Statistically Model Checking PCTL Specifications on Markov Decision Processes via Reinforcement Learning	Apr 1, 2020	NegationQ-Learning	—Unverified
Statistics and Samples in Distributional Reinforcement Learning	Feb 21, 2019	Distributional Reinforcement Learningreinforcement-learning	—Unverified
Learning Skills to Navigate without a Master: A Sequential Multi-Policy Reinforcement Learning Algorithm	Jan 30, 2021	Autonomous NavigationHierarchical Reinforcement Learning	—Unverified
Steady State Analysis of Episodic Reinforcement Learning	Nov 12, 2020	Continual Learningreinforcement-learning	—Unverified
Steady-State Error Compensation for Reinforcement Learning with Quadratic Rewards	Feb 14, 2024	reinforcement-learningReinforcement Learning	—Unverified
Stealing Deep Reinforcement Learning Models for Fun and Profit	Jun 9, 2020	Decision MakingDeep Reinforcement Learning	—Unverified
Stealthy and Efficient Adversarial Attacks against Deep Reinforcement Learning	May 14, 2020	Adversarial AttackDeep Reinforcement Learning	—Unverified
Steering LLM Reasoning Through Bias-Only Adaptation	May 24, 2025	GSM8KMath	—Unverified
STEERING: Stein Information Directed Exploration for Model-Based Reinforcement Learning	Jan 28, 2023	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Steering Your Diffusion Policy with Latent Space Reinforcement Learning	Jun 18, 2025	reinforcement-learningReinforcement Learning	—Unverified
Stein Variational Goal Generation for adaptive Exploration in Multi-Goal Reinforcement Learning	Jun 14, 2022	Multi-Goal Reinforcement Learningreinforcement-learning	—Unverified
Stein Variational Policy Gradient	Apr 7, 2017	Bayesian Inferencecontinuous-control	—Unverified
Stepping Out of the Shadows: Reinforcement Learning in Shadow Mode	Oct 30, 2024	reinforcement-learningReinforcement Learning	—Unverified
Step-wise Adaptive Integration of Supervised Fine-tuning and Reinforcement Learning for Task-Specific LLMs	May 19, 2025	Mathematical ReasoningReinforcement Learning (RL)	—Unverified
Stigmergic Independent Reinforcement Learning for Multi-Agent Collaboration	Nov 28, 2019	reinforcement-learningReinforcement Learning	—Unverified
Stochastically Dominant Distributional Reinforcement Learning	May 17, 2019	Distributional Reinforcement Learningreinforcement-learning	—Unverified
Stochastic Approximation of Gaussian Free Energy for Risk-Sensitive Reinforcement Learning	May 21, 2021	Decision Makingreinforcement-learning	—Unverified
Stochastic Approximation with Markov Noise: Analysis and applications in reinforcement learning	Apr 8, 2020	reinforcement-learningReinforcement Learning (RL)	—Unverified
Stochastic Constraint Programming as Reinforcement Learning	Apr 24, 2017	reinforcement-learningReinforcement Learning	—Unverified
Stochastic convex optimization for provably efficient apprenticeship learning	Dec 31, 2021	Imitation Learningreinforcement-learning	—Unverified
Stochastic evolution in populations of ideas	Sep 14, 2016	reinforcement-learningReinforcement Learning (RL)	—Unverified
Stochastic Gradient Descent with Dependent Data for Offline Reinforcement Learning	Feb 6, 2022	Q-Learningreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 249 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified