Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6826–6850 of 15113 papers

Title	Date	Tasks	Status
Efficient LSTM Training with Eligibility Traces	Sep 30, 2022	Q-LearningReinforcement Learning (RL)	—Unverified
Efficiently Breaking the Curse of Horizon in Off-Policy Evaluation with Double Reinforcement Learning	Sep 12, 2019	Off-policy evaluationreinforcement-learning	—Unverified
Efficiently Learning Small Policies for Locomotion and Manipulation	Sep 30, 2022	reinforcement-learningReinforcement Learning	—Unverified
Efficiently Training On-Policy Actor-Critic Networks in Robotic Deep Reinforcement Learning with Demonstration-like Sampled Exploration	Sep 27, 2021	Deep Reinforcement LearningMuJoCo	—Unverified
Efficient meta reinforcement learning via meta goal generation	Sep 25, 2019	Meta-LearningMeta Reinforcement Learning	—Unverified
MGHRL: Meta Goal-generation for Hierarchical Reinforcement Learning	Sep 30, 2019	Hierarchical Reinforcement LearningMeta-Learning	—Unverified
Efficient Model-based Multi-agent Reinforcement Learning via Optimistic Equilibrium Computation	Mar 14, 2022	Autonomous DrivingGaussian Processes	—Unverified
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning	Jul 8, 2021	Gaussian ProcessesModel-based Reinforcement Learning	—Unverified
Efficient model-based reinforcement learning for approximate online optimal	Feb 9, 2015	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Efficient Model-Free Reinforcement Learning Using Gaussian Process	Dec 11, 2018	modelreinforcement-learning	—Unverified
QMP: Q-switch Mixture of Policies for Multi-Task Behavior Sharing	Feb 1, 2023	reinforcement-learningReinforcement Learning	—Unverified
Efficient Navigation of Colloidal Robots in an Unknown Environment via Deep Reinforcement Learning	Jun 26, 2019	Deep Reinforcement LearningNavigate	—Unverified
BNAS:An Efficient Neural Architecture Search Approach Using Broad Scalable Architecture	Jan 18, 2020	Neural Architecture Searchreinforcement-learning	—Unverified
Efficient Neural Clause-Selection Reinforcement	Mar 10, 2025	Automated Theorem ProvingCPU	—Unverified
Efficient Off-Policy Safe Reinforcement Learning Using Trust Region Conditional Value at Risk	Dec 1, 2023	Reinforcement Learning (RL)Safe Reinforcement Learning	—Unverified
Efficient Online RL Fine Tuning with Offline Pre-trained Policy Only	May 22, 2025	Imitation LearningOffline RL	—Unverified
Efficient PAC Reinforcement Learning in Regular Decision Processes	May 14, 2021	reinforcement-learningReinforcement Learning	—Unverified
Efficient Performance Bounds for Primal-Dual Reinforcement Learning from Demonstrations	Dec 28, 2021	reinforcement-learningReinforcement Learning	—Unverified
Efficient Planning in Combinatorial Action Spaces with Applications to Cooperative Multi-Agent Reinforcement Learning	Feb 8, 2023	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Efficient Planning under Partial Observability with Unnormalized Q Functions and Spectral Learning	Nov 12, 2019	reinforcement-learningReinforcement Learning	—Unverified
Efficient Policy Adaptation with Contrastive Prompt Ensemble for Embodied Agents	Dec 16, 2024	Autonomous DrivingLanguage Modeling	—Unverified
Efficient Policy Learning for Non-Stationary MDPs under Adversarial Manipulation	Jul 22, 2019	reinforcement-learningReinforcement Learning	—Unverified
Efficient Poverty Mapping using Deep Reinforcement Learning	Jun 7, 2020	Deep Reinforcement Learningobject-detection	—Unverified
Efficient Preference-Based Reinforcement Learning Using Learned Dynamics Models	Jan 11, 2023	reinforcement-learningReinforcement Learning	—Unverified
Reinforcement Learning for Causal Discovery without Acyclicity Constraints	Aug 24, 2024	Causal DiscoveryEfficient Exploration	—Unverified

Show:10 25 50

← PrevPage 274 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified