Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10301–10325 of 15113 papers

Title	Date	Tasks	Status
Efficient Exploration through Intrinsic Motivation Learning for Unsupervised Subgoal Discovery in Model-Free Hierarchical Reinforcement Learning	Nov 18, 2019	Efficient ExplorationHierarchical Reinforcement Learning	—Unverified
Efficient Exploration Using Extra Safety Budget in Constrained Policy Optimization	Feb 28, 2023	Efficient ExplorationReinforcement Learning (RL)	—Unverified
Efficient Exploration via Epistemic-Risk-Seeking Policy Optimization	Feb 18, 2023	Deep Reinforcement LearningEfficient Exploration	—Unverified
Efficient Implementation of Reinforcement Learning over Homomorphic Encryption	Apr 12, 2025	Privacy Preservingreinforcement-learning	—Unverified
Uncertainty Quantification and Exploration for Reinforcement Learning	Oct 12, 2019	reinforcement-learningReinforcement Learning	—Unverified
Efficient Inference and Exploration for Reinforcement Learning	Sep 24, 2019	reinforcement-learningReinforcement Learning	—Unverified
Efficient Learning of High Level Plans from Play	Mar 16, 2023	Deep Reinforcement LearningMotion Planning	—Unverified
Efficient Learning of Safe Driving Policy via Human-AI Copilot Optimization	Feb 17, 2022	Imitation Learningreinforcement-learning	—Unverified
Efficient Learning of Voltage Control Strategies via Model-based Deep Reinforcement Learning	Dec 6, 2022	Deep Reinforcement LearningImitation Learning	—Unverified
Efficient LSTM Training with Eligibility Traces	Sep 30, 2022	Q-LearningReinforcement Learning (RL)	—Unverified
Efficiently Breaking the Curse of Horizon in Off-Policy Evaluation with Double Reinforcement Learning	Sep 12, 2019	Off-policy evaluationreinforcement-learning	—Unverified
Efficiently Learning Small Policies for Locomotion and Manipulation	Sep 30, 2022	reinforcement-learningReinforcement Learning	—Unverified
Efficiently Training On-Policy Actor-Critic Networks in Robotic Deep Reinforcement Learning with Demonstration-like Sampled Exploration	Sep 27, 2021	Deep Reinforcement LearningMuJoCo	—Unverified
Efficient meta reinforcement learning via meta goal generation	Sep 25, 2019	Meta-LearningMeta Reinforcement Learning	—Unverified
MGHRL: Meta Goal-generation for Hierarchical Reinforcement Learning	Sep 30, 2019	Hierarchical Reinforcement LearningMeta-Learning	—Unverified
Efficient Model-based Multi-agent Reinforcement Learning via Optimistic Equilibrium Computation	Mar 14, 2022	Autonomous DrivingGaussian Processes	—Unverified
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning	Jul 8, 2021	Gaussian ProcessesModel-based Reinforcement Learning	—Unverified
Efficient model-based reinforcement learning for approximate online optimal	Feb 9, 2015	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Efficient Model-Free Reinforcement Learning Using Gaussian Process	Dec 11, 2018	modelreinforcement-learning	—Unverified
QMP: Q-switch Mixture of Policies for Multi-Task Behavior Sharing	Feb 1, 2023	reinforcement-learningReinforcement Learning	—Unverified
Efficient Navigation of Colloidal Robots in an Unknown Environment via Deep Reinforcement Learning	Jun 26, 2019	Deep Reinforcement LearningNavigate	—Unverified
BNAS:An Efficient Neural Architecture Search Approach Using Broad Scalable Architecture	Jan 18, 2020	Neural Architecture Searchreinforcement-learning	—Unverified
Efficient Neural Clause-Selection Reinforcement	Mar 10, 2025	Automated Theorem ProvingCPU	—Unverified
Efficient Off-Policy Safe Reinforcement Learning Using Trust Region Conditional Value at Risk	Dec 1, 2023	Reinforcement Learning (RL)Safe Reinforcement Learning	—Unverified
Efficient Online RL Fine Tuning with Offline Pre-trained Policy Only	May 22, 2025	Imitation LearningOffline RL	—Unverified

Show:10 25 50

← PrevPage 413 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified