Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5901–5925 of 15113 papers

Title	Date	Tasks	Status
SensorDrop: A Reinforcement Learning Framework for Communication Overhead Reduction on the Edge	Oct 3, 2019	reinforcement-learningReinforcement Learning	—Unverified
Sensor Fusion for Robot Control through Deep Reinforcement Learning	Mar 13, 2017	Deep Reinforcement Learningreinforcement-learning	—Unverified
Sentiment Adaptive End-to-End Dialog Systems	Apr 28, 2018	reinforcement-learningReinforcement Learning	—Unverified
Sentiment Analysis for Reinforcement Learning	Oct 5, 2020	Dialogue Generationreinforcement-learning	—Unverified
Sentiment and Knowledge Based Algorithmic Trading with Deep Reinforcement Learning	Jan 26, 2020	Algorithmic TradingDeep Reinforcement Learning	—Unverified
SENTINEL: Taming Uncertainty with Ensemble-based Distributional Reinforcement Learning	Feb 22, 2021	Decision MakingDistributional Reinforcement Learning	—Unverified
Separated Proportional-Integral Lagrangian for Chance Constrained Reinforcement Learning	Feb 17, 2021	Autonomous Drivingreinforcement-learning	—Unverified
Separation of Concerns in Reinforcement Learning	Dec 15, 2016	reinforcement-learningReinforcement Learning	—Unverified
Sequence Generation with Guider Network	Nov 2, 2018	Reinforcement LearningReinforcement Learning (RL)	—Unverified
Sequence-level Intrinsic Exploration Model for Partially Observable Domains	Sep 25, 2019	Predictionreinforcement-learning	—Unverified
Sequence-to-Sequence ASR Optimization via Reinforcement Learning	Oct 30, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Sequence Tutor: Conservative Fine-Tuning of Sequence Generation Models with KL-control	Nov 9, 2016	DiversityReinforcement Learning	—Unverified
Sequential Anomaly Detection using Inverse Reinforcement Learning	Apr 22, 2020	Anomaly DetectionDecision Making	—Unverified
Sequential Attacks on Agents for Long-Term Adversarial Goals	May 31, 2018	Adversarial AttackReinforcement Learning	—Unverified
Sequential Bayesian experimental designs via reinforcement learning	Feb 14, 2022	Bayesian InferenceDecision Making	—Unverified
Sequential Communication in Multi-Agent Reinforcement Learning	Sep 29, 2021	Decision MakingMulti-agent Reinforcement Learning	—Unverified
Sequential Cost-Sensitive Feature Acquisition	Jul 13, 2016	reinforcement-learningReinforcement Learning	—Unverified
Sequential Dexterity: Chaining Dexterous Policies for Long-Horizon Manipulation	Sep 2, 2023	Reinforcement Learning (RL)	—Unverified
Sequential Dynamic Decision Making with Deep Neural Nets on a Test-Time Budget	May 31, 2017	Decision MakingFeature Engineering	—Unverified
Sequential Information Design: Markov Persuasion Process and Its Efficient Reinforcement Learning	Feb 22, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Sequential Search with Off-Policy Reinforcement Learning	Feb 1, 2022	reinforcement-learningReinforcement Learning	—Unverified
Sequential Stochastic Combinatorial Optimization Using Hierarchal Reinforcement Learning	Feb 8, 2025	Combinatorial OptimizationComputational Efficiency	—Unverified
Sequential Test for the Lowest Mean: From Thompson to Murphy Sampling	Jun 4, 2018	Reinforcement LearningReinforcement Learning (RL)	—Unverified
Sequential Transfer in Multi-armed Bandit with Finite Set of Models	Jul 25, 2013	Lifelong learningreinforcement-learning	—Unverified
Sequential Transfer in Reinforcement Learning with a Generative Model	Jul 1, 2020	reinforcement-learningReinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 237 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified