Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5726–5750 of 15113 papers

Title	Date	Tasks	Status
SAM-R1: Leveraging SAM for Reward Feedback in Multimodal Segmentation via Reinforcement Learning	May 28, 2025	Image SegmentationMultimodal Reasoning	—Unverified
SAM-RL: Sensing-Aware Model-Based Reinforcement Learning via Differentiable Physics-Based Simulation and Rendering	Oct 27, 2022	Deformable Object ManipulationModel-based Reinforcement Learning	—Unverified
SAPO-RL: Sequential Actuator Placement Optimization for Fuselage Assembly via Reinforcement Learning	Apr 24, 2025	Decision MakingQ-Learning	—Unverified
SARI: Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning	Apr 22, 2025	Multiple-choicereinforcement-learning	—Unverified
SAT-MARL: Specification Aware Training in Multi-Agent Reinforcement Learning	Dec 14, 2020	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
SatNet: A Benchmark for Satellite Scheduling Optimization	Nov 24, 2021	Combinatorial OptimizationEvolutionary Algorithms	—Unverified
Saute RL: Almost Surely Safe Reinforcement Learning Using State Augmentation	Feb 14, 2022	reinforcement-learningReinforcement Learning	—Unverified
Say What I Want: Towards the Dark Side of Neural Dialogue Models	Sep 13, 2019	ChatbotReinforcement Learning	—Unverified
SBEED: Convergent Reinforcement Learning with Nonlinear Function Approximation	Dec 29, 2017	Q-Learningreinforcement-learning	—Unverified
^2-exploration for Reinforcement Learning	Sep 29, 2021	General Reinforcement LearningQ-Learning	—Unverified
Scaffolding Reflection in Reinforcement Learning Framework for Confinement Escape Problem	Nov 13, 2020	reinforcement-learningReinforcement Learning	—Unverified
Scalable and Incremental Learning of Gaussian Mixture Models	Jan 14, 2017	General ClassificationIncremental Learning	—Unverified
Scalable and Sample Efficient Distributed Policy Gradient Algorithms in Multi-Agent Networked Systems	Dec 13, 2022	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Scalable Bayesian Inverse Reinforcement Learning by Auto-Encoding Reward	Jan 1, 2021	Bayesian InferenceImitation Learning	—Unverified
Scalable Centralized Deep Multi-Agent Reinforcement Learning via Policy Gradients	May 22, 2018	Deep Reinforcement LearningDistributed Optimization	—Unverified
Scalable Communication for Multi-Agent Reinforcement Learning via Transformer-Based Email Mechanism	Jan 5, 2023	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Scalable, Decentralized Multi-Agent Reinforcement Learning Methods Inspired by Stigmergy and Ant Colonies	May 8, 2021	Multi-agent Reinforcement LearningNavigate	—Unverified
Scalable Deep Reinforcement Learning Algorithms for Mean Field Games	Mar 22, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified
Scalable Deep Reinforcement Learning for Routing and Spectrum Access in Physical Layer	Dec 22, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Scalable Deep Reinforcement Learning for Ride-Hailing	Sep 27, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Scalable Evaluation of Multi-Agent Reinforcement Learning with Melting Pot	Jul 14, 2021	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Scalable Evolution Strategies Pipeline for Solving the Vehicle Routing Problem	Oct 17, 2020	Deep Reinforcement LearningGPU	—Unverified
Scalable Fragment-Based 3D Molecular Design with Reinforcement Learning	Feb 1, 2022	Drug Discoveryreinforcement-learning	—Unverified
Scalable Grid-Aware Dynamic Matching using Deep Reinforcement Learning	Jan 31, 2023	Deep Reinforcement Learningreinforcement-learning	—Unverified
Scalable Joint Learning of Wireless Multiple-Access Policies and their Signaling	Jun 8, 2022	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 230 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified