Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8726–8750 of 15113 papers

Title	Date	Tasks	Status
Quantum Multi-Agent Meta Reinforcement Learning	Aug 22, 2022	Meta-LearningMeta Reinforcement Learning	—Unverified
Quantum Multi-Armed Bandits and Stochastic Linear Bandits Enjoy Logarithmic Regrets	May 30, 2022	Multi-Armed Banditsreinforcement-learning	—Unverified
Quantum policy gradient algorithms	Dec 19, 2022	reinforcement-learningReinforcement Learning	—Unverified
Quantum Policy Iteration via Amplitude Estimation and Grover Search -- Towards Quantum Advantage for Reinforcement Learning	Jun 9, 2022	reinforcement-learningReinforcement Learning	—Unverified
Quantum reinforcement learning in continuous action space	Dec 19, 2020	reinforcement-learningReinforcement Learning	—Unverified
Quantum Reinforcement Learning via Policy Iteration	Mar 3, 2022	Decision Makingreinforcement-learning	—Unverified
Quantum-Train-Based Distributed Multi-Agent Reinforcement Learning	Dec 12, 2024	Distributed ComputingMulti-agent Reinforcement Learning	—Unverified
Quarl: A Learning-Based Quantum Circuit Optimizer	Jul 17, 2023	Reinforcement Learning (RL)	—Unverified
Quasimetric Value Functions with Dense Rewards	Sep 13, 2024	continuous-controlContinuous Control	—Unverified
Quasi-Newton Iteration in Deterministic Policy Gradient	Mar 25, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Deep Reinforcement Learning via L-BFGS Optimization	Nov 6, 2018	Atari GamesDeep Reinforcement Learning	—Unverified
Quasi-Newton Optimization Methods For Deep Learning Applications	Sep 4, 2019	Deep LearningDeep Reinforcement Learning	—Unverified
Quasi-Newton Trust Region Policy Optimization	Dec 26, 2019	continuous-controlContinuous Control	—Unverified
Quasi-optimal Reinforcement Learning with Continuous Actions	Jan 21, 2023	reinforcement-learningReinforcement Learning	—Unverified
Query-Efficient Video Adversarial Attack with Stylized Logo	Aug 22, 2024	Adversarial AttackReinforcement Learning (RL)	—Unverified
Query The Agent: Improving sample efficiency through epistemic uncertainty estimation	Oct 5, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation	Jul 17, 2025	MathReinforcement Learning (RL)	—Unverified
Queue-based Eco-Driving at Roundabouts with Reinforcement Learning	May 1, 2024	reinforcement-learningReinforcement Learning	—Unverified
Queue-Learning: A Reinforcement Learning Approach for Providing Quality of Service	Jan 12, 2021	AttributeCloud Computing	—Unverified
Quick Learner Automated Vehicle Adapting its Roadmanship to Varying Traffic Cultures with Meta Reinforcement Learning	Apr 18, 2021	Deep Reinforcement LearningMeta Reinforcement Learning	—Unverified
Quick Question: Interrupting Users for Microtasks with Reinforcement Learning	Jul 18, 2020	reinforcement-learningReinforcement Learning	—Unverified
Quinoa: a Q-function You Infer Normalized Over Actions	Nov 5, 2019	Normalising Flowsreinforcement-learning	—Unverified
Q-WSL: Optimizing Goal-Conditioned RL with Weighted Supervised Learning via Dynamic Programming	Oct 9, 2024	Q-LearningReinforcement Learning (RL)	—Unverified
Reward Prediction Error as an Exploration Objective in Deep RL	Jun 19, 2019	Atari GamesContinuous Control	—Unverified
QXplore: Q-Learning Exploration by Maximizing Temporal Difference Error	Sep 25, 2019	continuous-controlContinuous Control	—Unverified

Show:10 25 50

← PrevPage 350 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified