Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 12101–12150 of 15113 papers

Title	Date	Tasks	Status
Safety-Guided Deep Reinforcement Learning via Online Gaussian Process Estimation	Mar 6, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
Safety-Oriented Pruning and Interpretation of Reinforcement Learning Policies	Sep 16, 2024	reinforcement-learningReinforcement Learning	—Unverified
Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning	May 29, 2024	Reinforcement Learning (RL)Safe Reinforcement Learning	—Unverified
Black-Box Safety Validation of Autonomous Systems: A Multi-Fidelity Reinforcement Learning Approach	Mar 7, 2022	Decision MakingReinforcement Learning (RL)	—Unverified
Safety Verification of Model Based Reinforcement Learning Controllers	Oct 21, 2020	Autonomous Drivingmodel	—Unverified
SaFormer: A Conditional Sequence Modeling Approach to Offline Safe Reinforcement Learning	Jan 28, 2023	reinforcement-learningReinforcement Learning (RL)	—Unverified
SA-IGA: A Multiagent Reinforcement Learning Method Towards Socially Optimal Outcomes	Mar 8, 2018	Q-Learningreinforcement-learning	—Unverified
SAINT-ACC: Safety-Aware Intelligent Adaptive Cruise Control for Autonomous Vehicles Using Deep Reinforcement Learning	Mar 6, 2021	Autonomous VehiclesDeep Reinforcement Learning	—Unverified
Saliency-based Sequential Image Attention with Multiset Prediction	Nov 14, 2017	ClassificationGeneral Classification	—Unverified
SaLinA: Sequential Learning of Agents	Oct 15, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
SAMG: State-Action-Aware Offline-to-Online Reinforcement Learning with Offline Model Guidance	Oct 24, 2024	D4RLreinforcement-learning	—Unverified
Sample and Oracle Efficient Reinforcement Learning for MDPs with Linearly-Realizable Value Functions	Sep 7, 2024	Reinforcement Learning (RL)	—Unverified
Sample-based Distributional Policy Gradient	Jan 8, 2020	Distributional Reinforcement LearningOpenAI Gym	—Unverified
Sample Complexity Bounds for Two Timescale Value-based Reinforcement Learning Algorithms	Nov 10, 2020	reinforcement-learningReinforcement Learning (RL)	—Unverified
Sample Complexity of Episodic Fixed-Horizon Reinforcement Learning	Oct 29, 2015	reinforcement-learningReinforcement Learning	—Unverified
Sample Complexity of Estimating the Policy Gradient for Nearly Deterministic Dynamical Systems	Jan 24, 2019	reinforcement-learningReinforcement Learning	—Unverified
Sample Complexity of Kernel-Based Q-Learning	Feb 1, 2023	Q-LearningReinforcement Learning (RL)	—Unverified
Sample Complexity of Multi-task Reinforcement Learning	Sep 26, 2013	reinforcement-learningReinforcement Learning	—Unverified
Sample Complexity of Neural Policy Mirror Descent for Policy Optimization on Low-Dimensional Manifolds	Sep 25, 2023	Policy Gradient MethodsReinforcement Learning (RL)	—Unverified
Sample Complexity of Offline Distributionally Robust Linear Markov Decision Processes	Mar 19, 2024	Reinforcement Learning (RL)	—Unverified
Sample Complexity of Policy Gradient Finding Second-Order Stationary Points	Dec 2, 2020	Policy Gradient MethodsReinforcement Learning (RL)	—Unverified
Sample Complexity of Reinforcement Learning using Linearly Combined Model Ensembles	Oct 23, 2019	Model Selectionreinforcement-learning	—Unverified
Sample Complexity Reduction via Policy Difference Estimation in Tabular Reinforcement Learning	Jun 11, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Sample Efficiency in Sparse Reinforcement Learning: Or Your Money Back	Aug 28, 2020	reinforcement-learningReinforcement Learning	—Unverified
Sample-efficient Actor-Critic Reinforcement Learning with Supervised Data for Dialogue Management	Jul 1, 2017	Deep Reinforcement LearningDialogue Management	—Unverified
Sample-efficient Adversarial Imitation Learning from Observation	Jun 18, 2019	Imitation LearningReinforcement Learning	—Unverified
Sample-Efficient and Safe Deep Reinforcement Learning via Reset Deep Ensemble Agents	Oct 31, 2023	Deep Reinforcement LearningEnsemble Learning	—Unverified
Curriculum Reinforcement Learning for Complex Reward Functions	Oct 22, 2024	reinforcement-learningReinforcement Learning	—Unverified
Sample Efficient Deep Reinforcement Learning for Dialogue Systems with Large Action Spaces	Feb 11, 2018	Deep Reinforcement Learningreinforcement-learning	—Unverified
Sample-efficient Deep Reinforcement Learning for Dialog Control	Dec 18, 2016	Deep Reinforcement LearningPolicy Gradient Methods	—Unverified
Sample Efficient Deep Reinforcement Learning via Local Planning	Jan 29, 2023	Deep Reinforcement LearningMontezuma's Revenge	—Unverified
Sample-efficient Deep Reinforcement Learning with Imaginary Rollouts for Human-Robot Interaction	Aug 15, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
Sample-Efficient, Exploration-Based Policy Optimisation for Routing Problems	May 31, 2022	Efficient Explorationreinforcement-learning	—Unverified
Sample Efficient Feature Selection for Factored MDPs	Mar 9, 2017	Allfeature selection	—Unverified
Physics-informed Imitative Reinforcement Learning for Real-world Driving	Jun 18, 2024	Autonomous DrivingImitation Learning	—Unverified
Sample-Efficient Learning of Nonprehensile Manipulation Policies via Physics-Based Informed State Distributions	Oct 24, 2018	Reinforcement LearningReinforcement Learning (RL)	—Unverified
Sample-Efficient Multi-Agent Reinforcement Learning with Demonstrations for Flocking Control	Sep 17, 2022	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Sample Efficient Myopic Exploration Through Multitask Reinforcement Learning with Diverse Tasks	Mar 3, 2024	Diversityreinforcement-learning	—Unverified
Sample-efficient policy learning in multi-agent Reinforcement Learning via meta-learning	May 1, 2019	Meta-LearningMulti-agent Reinforcement Learning	—Unverified
Sample efficient Quality Diversity for neural continuous control	Jan 1, 2021	continuous-controlContinuous Control	—Unverified
Sample-Efficient Reinforcement Learning through Transfer and Architectural Priors	Jan 7, 2018	Atari GamesDeep Reinforcement Learning	—Unverified
Sample Efficient Reinforcement Learning by Automatically Learning to Compose Subtasks	Jan 25, 2024	reinforcement-learningReinforcement Learning	—Unverified
Sample-Efficient Reinforcement Learning for Linearly-Parameterized MDPs with a Generative Model	May 28, 2021	Q-Learningreinforcement-learning	—Unverified
Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency	Apr 20, 2022	reinforcement-learningReinforcement Learning	—Unverified
Sample-efficient Reinforcement Learning in Robotic Table Tennis	Nov 6, 2020	reinforcement-learningReinforcement Learning	—Unverified
Sample Efficient Reinforcement Learning In Continuous State Spaces: A Perspective Beyond Linearity	Jun 15, 2021	Atari Gamesreinforcement-learning	—Unverified
Sample-Efficient Reinforcement Learning in the Presence of Exogenous Information	Jun 9, 2022	reinforcement-learningReinforcement Learning	—Unverified
Sample-Efficient Reinforcement Learning Is Feasible for Linearly Realizable MDPs with Limited Revisiting	May 17, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
Sample-Efficient Reinforcement Learning of Undercomplete POMDPs	Jun 22, 2020	reinforcement-learningReinforcement Learning	—Unverified
Sample-Efficient Reinforcement Learning of Partially Observable Markov Games	Jun 2, 2022	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 243 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified