Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6051–6075 of 15113 papers

Title	Date	Tasks	Status
Snap Angle Prediction for 360Â° Panoramas	Sep 1, 2018	Predictionreinforcement-learning	—Unverified
Snap Angle Prediction for 360^ Panoramas	Mar 31, 2018	Predictionreinforcement-learning	—Unverified
SNeRL: Semantic-aware Neural Radiance Fields for Reinforcement Learning	Jan 27, 2023	3D ReconstructionNeRF	—Unverified
SocialAI: Benchmarking Socio-Cognitive Abilities in Deep Reinforcement Learning Agents	Jul 2, 2021	BenchmarkingDeep Reinforcement Learning	—Unverified
Social diversity and social preferences in mixed-motive reinforcement learning	Feb 6, 2020	Diversityreinforcement-learning	—Unverified
Social Interpretable Reinforcement Learning	Jan 27, 2024	reinforcement-learningReinforcement Learning	—Unverified
Socially Fair Reinforcement Learning	Aug 26, 2022	reinforcement-learningReinforcement Learning	—Unverified
Social Network Structure Shapes Innovation: Experience-sharing in RL with SAPIENS	Jun 10, 2022	Cultural Vocal Bursts Intensity PredictionReinforcement Learning (RL)	—Unverified
Social Vehicle Swarms: A Novel Perspective on Social-aware Vehicular Communication Architecture	Oct 29, 2018	Cloud ComputingDeep Reinforcement Learning	—Unverified
Socratic RL: A Novel Framework for Efficient Knowledge Acquisition through Iterative Reflection and Viewpoint Distillation	Jun 16, 2025	Meta-Learningreinforcement-learning	—Unverified
Soft Action Priors: Towards Robust Policy Transfer	Sep 20, 2022	reinforcement-learningReinforcement Learning	—Unverified
Soft Actor-Critic With Integer Actions	Sep 17, 2021	reinforcement-learningReinforcement Learning	—Unverified
SoftCTRL: Soft conservative KL-control of Transformer Reinforcement Learning for Autonomous Driving	Oct 30, 2024	Autonomous DrivingImitation Learning	—Unverified
Soft Decomposed Policy-Critic: Bridging the Gap for Effective Continuous Control with Discrete RL	Aug 20, 2023	Atari Gamescontinuous-control	—Unverified
Soft Expert Reward Learning for Vision-and-Language Navigation	Jul 21, 2020	Reinforcement Learning (RL)Vision and Language Navigation	—Unverified
Regularized Softmax Deep Multi-Agent Q-Learning	Mar 22, 2021	Multi-agent Reinforcement LearningQ-Learning	—Unverified
Soft Policy Gradient Method for Maximum Entropy Deep Reinforcement Learning	Sep 7, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
Soft policy optimization using dual-track advantage estimator	Sep 15, 2020	MuJoCoReinforcement Learning (RL)	—Unverified
Soft Q-Learning with Mutual-Information Regularization	May 1, 2019	Decision MakingQ-Learning	—Unverified
Soft-Robust Actor-Critic Policy-Gradient	Mar 11, 2018	reinforcement-learningReinforcement Learning	—Unverified
Soft-Robust Algorithms for Batch Reinforcement Learning	Nov 30, 2020	Decision Makingreinforcement-learning	—Unverified
SoK: Adversarial Machine Learning Attacks and Defences in Multi-Agent Reinforcement Learning	Jan 11, 2023	Deep Reinforcement LearningMulti-agent Reinforcement Learning	—Unverified
Solar Power driven EV Charging Optimization with Deep Reinforcement Learning	Nov 17, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified
SOLD: Slot Object-Centric Latent Dynamics Models for Relational Manipulation Learning from Pixels	Oct 11, 2024	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Solipsistic Reinforcement Learning	Mar 9, 2021	Model-based Reinforcement Learningreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 243 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified