SOTAVerified|Agents Browse Leaderboard About

Q-Learning

The goal of Q-learning is to learn a policy, which tells an agent what action to take under what circumstances.

( Image credit: Playing Atari with Deep Reinforcement Learning )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1426–1450 of 1918 papers

Title	Date	Tasks	Status
VerifierQ: Enhancing LLM Test Time Compute with Q-Learning-based Verifiers	Oct 10, 2024	Mathematical ReasoningQ-Learning	—Unverified
Video Summarisation by Classification with Deep Reinforcement Learning	Jul 9, 2018	ClassificationDecision Making	—Unverified
Virtual Autonomous Driving with Reinforcement Learning	Dec 14, 2020	Autonomous DrivingQ-Learning	—Unverified
VistaFlow: Photorealistic Volumetric Reconstruction with Dynamic Resolution Management via Q-Learning	Feb 5, 2025	CPUManagement	—Unverified
Visual Radial Basis Q-Network	Jun 14, 2022	Q-LearningReinforcement Learning (RL)	—Unverified
ViZDoom: DRQN with Prioritized Experience Replay, Double-Q Learning, & Snapshot Ensembling	Jan 3, 2018	Q-LearningReinforcement Learning	—Unverified
V-Learning -- A Simple, Efficient, Decentralized Algorithm for Multiagent RL	Oct 27, 2021	Medical Visual Question AnsweringQ-Learning	—Unverified
VLM Q-Learning: Aligning Vision-Language Models for Interactive Decision-Making	May 6, 2025	Decision MakingGeneral Knowledge	—Unverified
VOQL: Towards Optimal Regret in Model-free RL with Nonlinear Function Approximation	Dec 12, 2022	Q-Learningregression	—Unverified
Wasserstein Actor-Critic: Directed Exploration via Optimism for Continuous-Actions Control	Mar 4, 2023	MuJoCoQ-Learning	—Unverified
Way Off-Policy Batch Deep Reinforcement Learning of Implicit Human Preferences in Dialog	Jun 30, 2019	Deep Reinforcement LearningOpen-Domain Dialog	—Unverified
Way Off-Policy Batch Deep Reinforcement Learning of Human Preferences in Dialog	Jan 1, 2020	Deep Reinforcement LearningOpenAI Gym	—Unverified
Weakly Coupled Deep Q-Networks	Oct 28, 2023	Deep Reinforcement LearningQ-Learning	—Unverified
Weighted Bellman Backups for Improved Signal-to-Noise in Q-Updates	Jan 1, 2021	Deep Reinforcement LearningQ-Learning	—Unverified
Weighted Double Deep Multiagent Reinforcement Learning in Stochastic Cooperative Environments	Feb 23, 2018	Deep Reinforcement LearningQ-Learning	—Unverified
"What are my options?": Explaining RL Agents with Diverse Near-Optimal Alternatives (Extended)	Jun 11, 2025	DiversityQ-Learning	—Unverified
What Would pi* Do?: Imitation Learning via Off-Policy Reinforcement Learning	Sep 27, 2018	Imitation LearningQ-Learning	—Unverified
Bad Values but Good Behavior: Learning Highly Misspecified Bandits and MDPs	Oct 13, 2023	Decision MakingMulti-Armed Bandits	—Unverified
When a Reinforcement Learning Agent Encounters Unknown Unknowns	May 19, 2025	AI AgentQ-Learning	—Unverified
When Simple Exploration is Sample Efficient: Identifying Sufficient Conditions for Random Exploration to Yield PAC RL Algorithms	May 23, 2018	Efficient ExplorationQ-Learning	—Unverified
Where to Look: A Unified Attention Model for Visual Recognition with Reinforcement Learning	Nov 13, 2021	Q-LearningReinforcement Learning (RL)	—Unverified
Which Channel to Ask My Question? Personalized Customer Service RequestStream Routing using DeepReinforcement Learning	Nov 24, 2019	ChatbotDeep Reinforcement Learning	—Unverified
Whittle index based Q-learning for restless bandits with average reward	Apr 29, 2020	Q-Learningreinforcement-learning	—Unverified
Whittle Index Learning Algorithms for Restless Bandits with Constant Stepsizes	Sep 6, 2024	Multi-Armed BanditsQ-Learning	—Unverified
Whittle's index-based age-of-information minimization in multi-energy harvesting source networks	Aug 5, 2024	Q-LearningScheduling	—Unverified

Show:10 25 50

← PrevPage 58 of 77Next →

No leaderboard results yet.