Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1151–1175 of 2167 papers

Title	Date	Tasks	Status
Accounting for Focus Ambiguity in Visual Questions	Jan 4, 2025	Question AnsweringVisual Question Answering	—Unverified
Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models	Jan 20, 2020	Question AnsweringVisual Question Answering	—Unverified
Achieving Human Parity on Visual Question Answering	Nov 17, 2021	Question AnsweringVisual Question Answering	—Unverified
A Comparative Evaluation of Temporal Pooling Methods for Blind Video Quality Assessment	Feb 25, 2020	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified
A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis	May 29, 2025	DiagnosticVisual Prompting	—Unverified
A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical Image Analysis	Oct 31, 2023	DescriptiveMedical Image Analysis	—Unverified
A Comprehensive Survey of Knowledge-Based Vision Question Answering Systems: The Lifecycle of Knowledge in Visual Reasoning Task	Apr 24, 2025	Question AnsweringRetrieval	—Unverified
A Comprehensive Survey on Visual Question Answering Datasets and Algorithms	Nov 17, 2024	DiagnosticMiscellaneous	—Unverified
A Confidence-Based Interface for Neuro-Symbolic Visual Question Answering	Nov 21, 2021	Question AnsweringTranslation	—Unverified
A Corpus for Visual Question Answering Annotated with Frame Semantic Information	May 1, 2020	Question AnsweringVisual Question Answering	—Unverified
A Corpus of Natural Language for Visual Reasoning	Jul 1, 2017	Question AnsweringVisual Question Answering (VQA)	—Unverified
Action Verb Corpus	May 1, 2018	Action ClassificationLanguage Acquisition	—Unverified
Actively Seeking and Learning from Live Data	Apr 5, 2019	Domain AdaptationMeta-Learning	—Unverified
Ada-DQA: Adaptive Diverse Quality-aware Feature Acquisition for Video Quality Assessment	Aug 1, 2023	DiversityKnowledge Distillation	—Unverified
A Dataset for Multimodal Question Answering in the Cultural Heritage Domain	Dec 1, 2016	Question AnsweringSpeech Recognition	—Unverified
A dataset of clinically generated visual questions and answers about radiology images	Nov 20, 2018	Decision MakingMedical Visual Question Answering	—Unverified
``A Distorted Skull Lies in the Bottom Center...'' Identifying Paintings from Text Descriptions	Jun 1, 2016	Question AnsweringVisual Question Answering (VQA)	—Unverified
Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and Visual Question Generation	Jan 18, 2024	Caption GenerationLanguage Modeling	—Unverified
Advancing Multimodal Medical Capabilities of Gemini	May 6, 2024	Computed Tomography (CT)image-classification	—Unverified
Advancing Surgical VQA with Scene Graph Knowledge	Dec 15, 2023	Question AnsweringVisual Question Answering	—Unverified
Advancing Video Quality Assessment for AIGC	Sep 23, 2024	Image GenerationText Generation	—Unverified
AdvDreamer Unveils: Are Vision-Language Models Truly Ready for Real-World 3D Variations?	Dec 4, 2024	BenchmarkingVisual Question Answering (VQA)	—Unverified
Adventurer's Treasure Hunt: A Transparent System for Visually Grounded Compositional Visual Question Answering based on Scene Graphs	Jun 28, 2021	Question AnsweringTask 2	—Unverified
Adversarial Attacks Beyond the Image Space	Nov 20, 2017	Question AnsweringVisual Question Answering	—Unverified
Adversarial Multimodal Network for Movie Question Answering	Jun 24, 2019	Question AnsweringVideo Question Answering	—Unverified

Show:10 25 50

← PrevPage 47 of 87Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified