Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 726–750 of 2167 papers

Title	Date	Tasks	Status
Interpretable Visual Question Answering by Visual Grounding from Attention Supervision Mining	Aug 1, 2018	Question AnsweringVisual Grounding	—Unverified
Interpretable Visual Question Answering by Reasoning on Dependency Trees	Sep 6, 2018	Question Answeringvalid	—Unverified
Interpretable Visual Question Answering via Reasoning Supervision	Sep 7, 2023	Common Sense ReasoningQuestion Answering	—Unverified
Interpretable Visual Reasoning via Probabilistic Formulation under Natural Supervision	Aug 1, 2020	Question AnsweringVisual Question Answering	—Unverified
Crossformer: Transformer with Alternated Cross-Layer Guidance	Sep 29, 2021	Inductive BiasMachine Translation	—Unverified
Cross-Dataset Adaptation for Visual Question Answering	Jun 10, 2018	Domain AdaptationQuestion Answering	—Unverified
A Unified Framework for Multilingual and Code-Mixed Visual Question Answering	Dec 1, 2020	Question AnsweringVisual Question Answering	—Unverified
Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models	Jan 20, 2020	Question AnsweringVisual Question Answering	—Unverified
CQ-VQA: Visual Question Answering on Categorized Questions	Feb 17, 2020	Question AnsweringVisual Question Answering	—Unverified
Augmenting Image Question Answering Dataset by Exploiting Image Captions	May 1, 2018	Data AugmentationImage Captioning	—Unverified
CP-LLM: Context and Pixel Aware Large Language Model for Video Quality Assessment	May 21, 2025	Language ModelingLanguage Modelling	—Unverified
Co-VQA : Answering by Interactive Sub Question Sequence	Apr 2, 2022	Question AnsweringVisual Question Answering	—Unverified
``Look, some Green Circles!'': Learning to Quantify from Images	Aug 1, 2016	Question AnsweringVisual Question Answering (VQA)	—Unverified
Interpretable Visual Question Answering Referring to Outside Knowledge	Mar 8, 2023	DiversityImage Captioning	—Unverified
Co-VQA : Answering by Interactive Sub Question Sequence	Nov 16, 2021	Question AnsweringVisual Question Answering	—Unverified
Audio-Visual Quality Assessment for User Generated Content: Database and Method	Mar 4, 2023	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified
Accounting for Focus Ambiguity in Visual Questions	Jan 4, 2025	Question AnsweringVisual Question Answering	—Unverified
Counterfactual Vision and Language Learning	Jun 1, 2020	counterfactualQuestion Answering	—Unverified
All You May Need for VQA are Image Captions	Jan 16, 2022	AllImage Captioning	—Unverified
Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models	Jan 3, 2025	Binary ClassificationFace Anti-Spoofing	—Unverified
Attentive Explanations: Justifying Decisions and Pointing to the Evidence (Extended Abstract)	Nov 17, 2017	Question AnsweringVisual Question Answering (VQA)	—Unverified
Cost Function Dependent Barren Plateaus in Shallow Parametrized Quantum Circuits	Jan 2, 2020	Visual Question Answering (VQA)	—Unverified
Attentive Explanations: Justifying Decisions and Pointing to the Evidence	Dec 14, 2016	Decision MakingQuestion Answering	—Unverified
Interpretable Medical Image Visual Question Answering via Multi-Modal Relationship Graph Learning	Feb 19, 2023	Graph LearningMedical Visual Question Answering	—Unverified
CoRe-MMRAG: Cross-Source Knowledge Reconciliation for Multimodal RAG	Jun 3, 2025	Answer GenerationRAG	—Unverified

Show:10 25 50

← PrevPage 30 of 87Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified