Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 9326–9350 of 15113 papers

Title	Date	Tasks	Status
Quantile-Based Policy Optimization for Reinforcement Learning	Jan 27, 2022	reinforcement-learningReinforcement Learning	—Unverified
Quantile QT-Opt for Risk-Aware Vision-Based Robotic Grasping	Oct 1, 2019	Q-LearningReinforcement Learning	—Unverified
Quantile Reinforcement Learning	Nov 3, 2016	reinforcement-learningReinforcement Learning	—Unverified
Autonomous and Human-Driven Vehicles Interacting in a Roundabout: A Quantitative and Qualitative Evaluation	Sep 15, 2023	Autonomous Vehiclesreinforcement-learning	—Unverified
Quantitative Day Trading from Natural Language using Reinforcement Learning	Jun 1, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
Quantitative Resilience Modeling for Autonomous Cyber Defense	Mar 4, 2025	Reinforcement Learning (RL)	—Unverified
Quantitative Trading using Deep Q Learning	Apr 3, 2023	Q-Learningreinforcement-learning	—Unverified
Quantity vs. Quality: On Hyperparameter Optimization for Deep Reinforcement Learning	Jul 29, 2020	Bayesian OptimizationDeep Reinforcement Learning	—Unverified
Quantum algorithms applied to satellite mission planning for Earth observation	Feb 14, 2023	Earth Observationreinforcement-learning	—Unverified
Quantum Architecture Search via Continual Reinforcement Learning	Dec 10, 2021	Continual LearningDeep Reinforcement Learning	—Unverified
Quantum Compiling with Reinforcement Learning on a Superconducting Processor	Jun 18, 2024	reinforcement-learningReinforcement Learning	—Unverified
Quantum Computing Provides Exponential Regret Improvement in Episodic Reinforcement Learning	Feb 16, 2023	reinforcement-learningReinforcement Learning	—Unverified
Quantum Control based on Deep Reinforcement Learning	Dec 14, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified
Quantum deep recurrent reinforcement learning	Oct 26, 2022	Decision MakingQ-Learning	—Unverified
Quantum-enhanced machine learning	Oct 26, 2016	BIG-bench Machine LearningQuantum Machine Learning	—Unverified
Quantum-Enhanced Reinforcement Learning for Power Grid Security Assessment	Apr 19, 2025	Computational EfficiencyNavigate	—Unverified
Quantum framework for Reinforcement Learning: Integrating Markov decision process, quantum arithmetic, and trajectory search	Dec 24, 2024	Computational EfficiencyDecision Making	—Unverified
Quantum Logic Gate Synthesis as a Markov Decision Process	Dec 27, 2019	reinforcement-learningReinforcement Learning	—Unverified
Quantum machine learning with glow for episodic tasks and decision games	Jan 27, 2016	BIG-bench Machine LearningQuantum Machine Learning	—Unverified
Quantum Multi-Agent Meta Reinforcement Learning	Aug 22, 2022	Meta-LearningMeta Reinforcement Learning	—Unverified
Quantum Multi-Armed Bandits and Stochastic Linear Bandits Enjoy Logarithmic Regrets	May 30, 2022	Multi-Armed Banditsreinforcement-learning	—Unverified
Quantum policy gradient algorithms	Dec 19, 2022	reinforcement-learningReinforcement Learning	—Unverified
Quantum Policy Iteration via Amplitude Estimation and Grover Search -- Towards Quantum Advantage for Reinforcement Learning	Jun 9, 2022	reinforcement-learningReinforcement Learning	—Unverified
Quantum reinforcement learning in continuous action space	Dec 19, 2020	reinforcement-learningReinforcement Learning	—Unverified
Quantum Reinforcement Learning via Policy Iteration	Mar 3, 2022	Decision Makingreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 374 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified