Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1601–1625 of 2167 papers

Title	Date	Tasks	Status
Visual Query Answering by Entity-Attribute Graph Matching and Reasoning	Mar 16, 2019	AttributeGraph Matching	—Unverified
Visual Question Answering as a Meta Learning Task	Nov 22, 2017	Meta-LearningQuestion Answering	—Unverified
Visual Question Answering as a Multi-Task Problem	Jul 3, 2020	Question AnsweringVisual Question Answering	—Unverified
Visual Question Answering as Reading Comprehension	Nov 29, 2018	Common Sense ReasoningGeneral Knowledge	—Unverified
Visual Question Answering: A Survey on Techniques and Common Trends in Recent Literature	May 18, 2023	Question AnsweringVisual Question Answering	—Unverified
Visual question answering based evaluation metrics for text-to-image generation	Nov 15, 2024	Image GenerationImage Manipulation	—Unverified
Visual Question Answering based on Formal Logic	Nov 8, 2021	Formal LogicQuestion Answering	—Unverified
Visual Question Answering based on Local-Scene-Aware Referring Expression Generation	Jan 22, 2021	Question AnsweringReferring Expression	—Unverified
Visual Question Answering Dataset for Bilingual Image Understanding: A Study of Cross-Lingual Transfer Using Attention Maps	Aug 1, 2018	Cross-Lingual TransferImage Captioning	—Unverified
Visual Question Answering for Cultural Heritage	Mar 22, 2020	Question AnsweringVisual Question Answering	—Unverified
Visual question answering: from early developments to recent advances -- a survey	Jan 7, 2025	DescriptiveNatural Language Understanding	—Unverified
Visual Question Answering in Ophthalmology: A Progressive and Practical Perspective	Oct 22, 2024	Question AnsweringVisual Question Answering	—Unverified
Visual Question Answering in Remote Sensing with Cross-Attention and Multimodal Information Bottleneck	Jun 25, 2023	object-detectionObject Detection	—Unverified
Visual Question Answering Instruction: Unlocking Multimodal Large Language Model To Domain-Specific Visual Multitasks	Feb 13, 2024	Language ModelingLanguage Modelling	—Unverified
Visual Question Answering in the Medical Domain	Sep 20, 2023	Contrastive LearningMedical Visual Question Answering	—Unverified
Visual Question Answering on 360° Images	Jan 10, 2020	Question AnsweringVisual Question Answering	—Unverified
Visual Question Answering on Image Sets	Aug 27, 2020	Question AnsweringVisual Question Answering	—Unverified
Visual Question Answering on Multiple Remote Sensing Image Modalities	May 21, 2025	Question AnsweringVisual Question Answering	—Unverified
Visual Question Answering Using Semantic Information from Image Descriptions	Apr 23, 2020	Question AnsweringVisual Question Answering	—Unverified
Visual Question Answering (VQA) on Images with Superimposed Text	Jun 13, 2023	Question AnsweringVisual Question Answering	—Unverified
Visual Question Answering with Memory-Augmented Networks	Jul 17, 2017	Question AnsweringVisual Question Answering	—Unverified
Visual Question Answering with Prior Class Semantics	May 4, 2020	Question AnsweringVisual Question Answering	—Unverified
Visual Question Answering with Question Representation Update (QRU)	Dec 1, 2016	Question AnsweringVisual Question Answering	—Unverified
Visual Question Decomposition on Multimodal Large Language Models	Sep 28, 2024	Visual Question Answering (VQA)	—Unverified
Visual Question Generation as Dual Task of Visual Question Answering	Sep 21, 2017	Question AnsweringQuestion Generation	—Unverified

Show:10 25 50

← PrevPage 65 of 87Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified