Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 601–625 of 2167 papers

Title	Date	Tasks	Status
3D Concept Learning and Reasoning from Multi-View Images	Mar 20, 2023	Question AnsweringVisual Question Answering	—Unverified
Does my multimodal model learn cross-modal interactions? It's harder to tell than you might think!	Oct 13, 2020	DiagnosticImage-text Classification	—Unverified
AdvDreamer Unveils: Are Vision-Language Models Truly Ready for Real-World 3D Variations?	Dec 4, 2024	BenchmarkingVisual Question Answering (VQA)	—Unverified
High Frame Rate Video Quality Assessment using VMAF and Entropic Differences	Sep 27, 2021	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified
Document Visual Question Answering Challenge 2020	Aug 20, 2020	Question AnsweringRetrieval	—Unverified
An Empirical Study on the Language Modal in Visual Question Answering	May 17, 2023	Question AnsweringVisual Question Answering	—Unverified
Document Collection Visual Question Answering	Apr 27, 2021	document understandingQuestion Answering	—Unverified
A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical Image Analysis	Oct 31, 2023	DescriptiveMedical Image Analysis	—Unverified
Highly Efficient No-reference 4K Video Quality Assessment with Full-Pixel Covering Sampling and Training Strategy	Jul 30, 2024	4kVideo Quality Assessment	—Unverified
How good are deep models in understanding the generated images?	Aug 23, 2022	ObjectObject Recognition	—Unverified
Document AI: Benchmarks, Models and Applications	Nov 16, 2021	Deep LearningDocument AI	—Unverified
An Empirical Study on the Generalization Power of Neural Representations Learned via Visual Guessing Games	Jan 31, 2021	Question AnsweringVisual Question Answering	—Unverified
Binding Touch to Everything: Learning Unified Multimodal Tactile Representations	Jan 31, 2024	Question AnsweringVisual Question Answering (VQA)	—Unverified
Divide, Evaluate, and Refine: Evaluating and Improving Text-to-Image Alignment with Iterative VQA Feedback	Jul 10, 2023	Image GenerationVisual Question Answering (VQA)	—Unverified
A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis	May 29, 2025	DiagnosticVisual Prompting	—Unverified
Hierarchical Memory for Long Video QA	Jun 30, 2024	GPUQuestion Answering	—Unverified
Diversity and Consistency: Exploring Visual Question-Answer Pair Generation	Nov 1, 2021	DiversityQuestion Answering	—Unverified
Advancing Video Quality Assessment for AIGC	Sep 23, 2024	Image GenerationText Generation	—Unverified
Distraction-free Embeddings for Robust VQA	Aug 31, 2023	Question AnsweringVideo Question Answering	—Unverified
Hierarchical Graph Attention Network for Few-Shot Visual-Semantic Learning	Jan 1, 2021	Graph AttentionImage Captioning	—Unverified
Hierarchical Modeling for Medical Visual Question Answering with Cross-Attention Fusion	Apr 4, 2025	DiagnosticMedical Visual Question Answering	—Unverified
Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA	Jun 27, 2024	General KnowledgeQuestion Answering	—Unverified
Beyond VQA: Generating Multi-word Answer and Rationale to Visual Questions	Oct 24, 2020	General ClassificationMultiple-choice	—Unverified
An Empirical Study on Leveraging Scene Graphs for Visual Question Answering	Jul 28, 2019	Knowledge GraphsQuestion Answering	—Unverified
Directional Gradient Projection for Robust Fine-Tuning of Foundation Models	Feb 21, 2025	image-classificationImage Classification	—Unverified

Show:10 25 50

← PrevPage 25 of 87Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified