Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5676–5700 of 15113 papers

Title	Date	Tasks	Status
Sample Complexity Bounds for Two Timescale Value-based Reinforcement Learning Algorithms	Nov 10, 2020	reinforcement-learningReinforcement Learning (RL)	—Unverified
Sample Complexity of Episodic Fixed-Horizon Reinforcement Learning	Oct 29, 2015	reinforcement-learningReinforcement Learning	—Unverified
Sample Complexity of Estimating the Policy Gradient for Nearly Deterministic Dynamical Systems	Jan 24, 2019	reinforcement-learningReinforcement Learning	—Unverified
Sample Complexity of Kernel-Based Q-Learning	Feb 1, 2023	Q-LearningReinforcement Learning (RL)	—Unverified
Sample Complexity of Multi-task Reinforcement Learning	Sep 26, 2013	reinforcement-learningReinforcement Learning	—Unverified
Sample Complexity of Neural Policy Mirror Descent for Policy Optimization on Low-Dimensional Manifolds	Sep 25, 2023	Policy Gradient MethodsReinforcement Learning (RL)	—Unverified
Sample Complexity of Offline Distributionally Robust Linear Markov Decision Processes	Mar 19, 2024	Reinforcement Learning (RL)	—Unverified
Sample Complexity of Policy Gradient Finding Second-Order Stationary Points	Dec 2, 2020	Policy Gradient MethodsReinforcement Learning (RL)	—Unverified
Sample Complexity of Reinforcement Learning using Linearly Combined Model Ensembles	Oct 23, 2019	Model Selectionreinforcement-learning	—Unverified
Sample Complexity Reduction via Policy Difference Estimation in Tabular Reinforcement Learning	Jun 11, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Sample Efficiency in Sparse Reinforcement Learning: Or Your Money Back	Aug 28, 2020	reinforcement-learningReinforcement Learning	—Unverified
Sample-efficient Actor-Critic Reinforcement Learning with Supervised Data for Dialogue Management	Jul 1, 2017	Deep Reinforcement LearningDialogue Management	—Unverified
Sample-efficient Adversarial Imitation Learning from Observation	Jun 18, 2019	Imitation LearningReinforcement Learning	—Unverified
Sample-Efficient and Safe Deep Reinforcement Learning via Reset Deep Ensemble Agents	Oct 31, 2023	Deep Reinforcement LearningEnsemble Learning	—Unverified
Curriculum Reinforcement Learning for Complex Reward Functions	Oct 22, 2024	reinforcement-learningReinforcement Learning	—Unverified
Sample Efficient Deep Reinforcement Learning for Dialogue Systems with Large Action Spaces	Feb 11, 2018	Deep Reinforcement Learningreinforcement-learning	—Unverified
Sample-efficient Deep Reinforcement Learning for Dialog Control	Dec 18, 2016	Deep Reinforcement LearningPolicy Gradient Methods	—Unverified
Sample Efficient Deep Reinforcement Learning via Local Planning	Jan 29, 2023	Deep Reinforcement LearningMontezuma's Revenge	—Unverified
Sample-efficient Deep Reinforcement Learning with Imaginary Rollouts for Human-Robot Interaction	Aug 15, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
Sample-Efficient, Exploration-Based Policy Optimisation for Routing Problems	May 31, 2022	Efficient Explorationreinforcement-learning	—Unverified
Sample Efficient Feature Selection for Factored MDPs	Mar 9, 2017	Allfeature selection	—Unverified
Physics-informed Imitative Reinforcement Learning for Real-world Driving	Jun 18, 2024	Autonomous DrivingImitation Learning	—Unverified
Sample-Efficient Learning of Nonprehensile Manipulation Policies via Physics-Based Informed State Distributions	Oct 24, 2018	Reinforcement LearningReinforcement Learning (RL)	—Unverified
Sample-Efficient Multi-Agent Reinforcement Learning with Demonstrations for Flocking Control	Sep 17, 2022	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Sample Efficient Myopic Exploration Through Multitask Reinforcement Learning with Diverse Tasks	Mar 3, 2024	Diversityreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 228 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified