Q-Learning

The goal of Q-learning is to learn a policy, which tells an agent what action to take under what circumstances.

( Image credit: Playing Atari with Deep Reinforcement Learning )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1301–1350 of 1918 papers

Title	Date	Tasks	Status
Multi-agent Reinforcement Learning in Bayesian Stackelberg Markov Games for Adaptive Moving Target Defense	Jul 20, 2020	Multi-agent Reinforcement LearningQ-Learning	—Unverified
Multi-Agent Reinforcement Learning in a Realistic Limit Order Book Market Simulation	Jun 10, 2020	Multi-agent Reinforcement LearningQ-Learning	—Unverified
Multi-agent Reinforcement Learning with Deep Networks for Diverse Q-Vectors	Jun 12, 2024	Multi-agent Reinforcement LearningQ-Learning	—Unverified
Multiagent Soft Q-Learning	Apr 25, 2018	Policy Gradient MethodsQ-Learning	—Unverified
Multi-Armed Bandits for Correlated Markovian Environments with Smoothed Reward Feedback	Mar 11, 2018	Multi-Armed BanditsQ-Learning	—Unverified
Multi-Bellman operator for convergence of Q-learning with linear function approximation	Sep 28, 2023	Q-Learning	—Unverified
Multicrew Scheduling and Routing in Road Network Restoration Based on Deep Q-learning	Nov 24, 2021	Q-LearningScheduling	—Unverified
Multi Exit Configuration of Mesoscopic Pedestrian Simulation	Sep 6, 2016	Q-Learning	—Unverified
Multi-Objective-Optimization Multi-AUV Assisted Data Collection Framework for IoUT Based on Offline Reinforcement Learning	Oct 15, 2024	Collision AvoidanceOffline RL	—Unverified
Multi-objective Optimization of Notifications Using Offline Reinforcement Learning	Jul 7, 2022	Q-Learningreinforcement-learning	—Unverified
Multi-Objective Reinforcement Learning for Critical Scenario Generation of Autonomous Vehicles	Feb 18, 2025	Autonomous VehiclesMulti-Objective Reinforcement Learning	—Unverified
Multiple Correlated Jammers Nullification using LSTM-based Deep Dueling Neural Network	Feb 8, 2022	Q-Learning	—Unverified
Multi-Power Level Q-Learning Algorithm for Random Access in NOMA mMTC Systems	Jan 12, 2023	Q-Learning	—Unverified
Multi Pseudo Q-learning Based Deterministic Policy Gradient for Tracking Control of Autonomous Underwater Vehicles	Sep 7, 2019	Policy Gradient MethodsQ-Learning	—Unverified
Multi-Source AoI-Constrained Resource Minimization under HARQ: Heterogeneous Sampling Processes	Jul 19, 2022	Q-LearningScheduling	—Unverified
Multi-step Reinforcement Learning: A Unifying Algorithm	Mar 3, 2017	Q-Learningreinforcement-learning	—Unverified
Music Generation using Human-In-The-Loop Reinforcement Learning	Jan 25, 2025	Music GenerationQ-Learning	—Unverified
Mutation-Bias Learning in Games	May 28, 2024	Multi-agent Reinforcement LearningQ-Learning	—Unverified
Mutual-Information Regularization in Markov Decision Processes and Actor-Critic Learning	Sep 11, 2019	MuJoCoQ-Learning	—Unverified
M-Walk: Learning to Walk over Graphs using Monte Carlo Tree Search	Feb 12, 2018	Knowledge Base CompletionLink Prediction	—Unverified
Nash Equilibrium Between Consumer Electronic Devices and DoS Attacker for Distributed IoT-enabled RSE Systems	Apr 13, 2025	Q-LearningState Estimation	—Unverified
Nash Soft Actor-Critic LEO Satellite Handover Management Algorithm for Flying Vehicles	Jan 31, 2024	BlockingManagement	—Unverified
Natural Gradient Deep Q-learning	Mar 20, 2018	Deep Reinforcement LearningHyperparameter Optimization	—Unverified
Navigating Intelligence: A Survey of Google OR-Tools and Machine Learning for Global Path Planning in Autonomous Vehicles	Mar 5, 2025	Autonomous VehiclesQ-Learning	—Unverified
Navigation In Urban Environments Amongst Pedestrians Using Multi-Objective Deep Reinforcement Learning	Oct 11, 2021	Autonomous DrivingAutonomous Navigation	—Unverified
Navigation with QPHIL: Quantizing Planner for Hierarchical Implicit Q-Learning	Nov 12, 2024	Imitation LearningOffline RL	—Unverified
Near-Optimal Regret Bounds for Model-Free RL in Non-Stationary Episodic MDPs	Sep 28, 2020	Q-LearningReinforcement Learning (RL)	—Unverified
Model-Free Non-Stationary RL: Near-Optimal Regret and Applications in Multi-Agent RL and Inventory Control	Oct 7, 2020	Computational EfficiencyQ-Learning	—Unverified
Near-Optimal Reinforcement Learning with Self-Play	Jun 22, 2020	Q-Learningreinforcement-learning	—Unverified
Neighborhood Cognition Consistent Multi-Agent Reinforcement Learning	Dec 3, 2019	Multi-agent Reinforcement LearningQ-Learning	—Unverified
Compositional Q-learning for electrolyte repletion with imbalanced patient sub-populations	Oct 6, 2021	Decision MakingNavigate	—Unverified
Networked Control of Nonlinear Systems under Partial Observation Using Continuous Deep Q-Learning	Aug 28, 2019	Q-Learning	—Unverified
Hyperparameter optimization with REINFORCE and Transformers	Jun 1, 2020	BenchmarkingHyperparameter Optimization	—Unverified
Neural-Kernel Conditional Mean Embeddings	Mar 16, 2024	Deep LearningDensity Estimation	—Unverified
Neural Network Based Reinforcement Learning for Audio-Visual Gaze Control in Human-Robot Interaction	Nov 18, 2017	parameter estimationQ-Learning	—Unverified
Neural-Network-Driven Reward Prediction as a Heuristic: Advancing Q-Learning for Mobile Robot Path Planning	Dec 17, 2024	Q-Learning	—Unverified
Neural networks with motivation	Jun 23, 2019	Hierarchical Reinforcement LearningNavigate	—Unverified
Neural Q-learning for solving PDEs	Mar 31, 2022	Q-Learning	—Unverified
Neural Temporal-Difference Learning Converges to Global Optima	Dec 1, 2019	Deep Reinforcement LearningQ-Learning	—Unverified
Neurohex: A Deep Q-learning Hex Agent	Apr 24, 2016	Atari GamesGame of Go	—Unverified
Neuromimetic Linear Systems -- Resilience and Learning	May 10, 2022	Combinatorial OptimizationQ-Learning	—Unverified
Non-Asymptotic Guarantees for Average-Reward Q-Learning with Adaptive Stepsizes	Apr 25, 2025	Q-Learning	—Unverified
Non-delusional Q-learning and value-iteration	Dec 1, 2018	Q-Learning	—Unverified
No-Regret Reinforcement Learning with Heavy-Tailed Rewards	Feb 25, 2021	Deep Reinforcement LearningQ-Learning	—Unverified
Numeric Reward Machines	Apr 30, 2024	Q-Learning	—Unverified
Object Goal Navigation using Data Regularized Q-Learning	Aug 27, 2022	Data AugmentationDeep Reinforcement Learning	—Unverified
Off-line approximate dynamic programming for the vehicle routing problem with a highly variable customer basis and stochastic demands	Sep 21, 2021	Decision MakingQ-Learning	—Unverified
Offline Decentralized Multi-Agent Reinforcement Learning	Aug 4, 2021	Multi-agent Reinforcement LearningQ-Learning	—Unverified
Offline Deep Reinforcement Learning for Dynamic Pricing of Consumer Credit	Mar 6, 2022	Deep Reinforcement LearningQ-Learning	—Unverified
OER: Offline Experience Replay for Continual Offline Reinforcement Learning	May 23, 2023	Continual LearningMuJoCo	—Unverified

Show:10 25 50

← PrevPage 27 of 39Next →

No leaderboard results yet.