Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 576–600 of 2167 papers

Title	Date	Tasks	Status	Hype	Score
OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge	May 31, 2019	object-detectionObject Detection	CodeCode Available	1	5
Exploring Opinion-unaware Video Quality Assessment with Semantic Affinity Criterion	Feb 26, 2023	Video Quality AssessmentVisual Question Answering (VQA)	CodeCode Available	1	5
ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich Document Understanding	Oct 12, 2022	document-image-classificationDocument Image Classification	CodeCode Available	1	5
NExT-QA: Next Phase of Question-Answering to Explaining Temporal Actions	Jun 19, 2021	Question AnsweringVideo Question Answering	CodeCode Available	1	5
Hierarchical multimodal transformers for Multi-Page DocVQA	Dec 7, 2022	DecoderQuestion Answering	CodeCode Available	1	5
GPT-4V-AD: Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot Anomaly Detection	Nov 5, 2023	Anomaly DetectionQuestion Answering	CodeCode Available	1	5
Hierarchical Conditional Relation Networks for Video Question Answering	Feb 25, 2020	Audio-Visual Question Answering (AVQA)Question Answering	CodeCode Available	1	5
FFAA: Multimodal Large Language Model based Explainable Open-World Face Forgery Analysis Assistant	Aug 19, 2024	DescriptiveFace Swapping	CodeCode Available	1	5
Introspective Distillation for Robust Question Answering	Nov 1, 2021	counterfactualInductive Bias	CodeCode Available	1	5
How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for Vision LLMs	Nov 27, 2023	Adversarial RobustnessVisual Question Answering (VQA)	CodeCode Available	1	5
Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering	Sep 19, 2024	HallucinationHallucination Evaluation	CodeCode Available	1	5
MUTANT: A Training Paradigm for Out-of-Distribution Generalization in Visual Question Answering	Sep 18, 2020	Out-of-Distribution GeneralizationQuestion Answering	CodeCode Available	1	5
Overcoming Language Priors with Self-supervised Learning for Visual Question Answering	Dec 17, 2020	Question AnsweringSelf-Supervised Learning	CodeCode Available	1	5
How to Configure Good In-Context Sequence for Visual Question Answering	Dec 4, 2023	In-Context LearningQuestion Answering	CodeCode Available	1	5
Towards More Faithful Natural Language Explanation Using Multi-Level Contrastive Learning in VQA	Dec 21, 2023	Contrastive Learningcounterfactual	CodeCode Available	1	5
DrishtiKon: Multi-Granular Visual Grounding for Text-Rich Document Images	Jun 26, 2025	document understandingOptical Character Recognition (OCR)	CodeCode Available	0	5
BLOCK: Bilinear Superdiagonal Fusion for Visual Question Answering and Visual Relationship Detection	Jan 31, 2019	Question AnsweringRelationship Detection	CodeCode Available	0	5
Don't Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering	Dec 1, 2017	Question AnsweringVisual Question Answering	CodeCode Available	0	5
Multimodal Residual Learning for Visual QA	Jun 5, 2016	Multiple-choiceQuestion Answering	CodeCode Available	0	5
Blind VQA on 360° Video via Progressively Learning from Pixels, Frames and Video	Nov 18, 2021	Visual Question Answering (VQA)	CodeCode Available	0	5
Blind Prediction of Natural Video Quality	Jan 9, 2014	PredictionVideo Quality Assessment	CodeCode Available	0	5
A Neuro-Symbolic ASP Pipeline for Visual Question Answering	May 16, 2022	Question AnsweringVisual Question Answering	CodeCode Available	0	5
Multimodal Explanations: Justifying Decisions and Pointing to the Evidence	Feb 15, 2018	Activity RecognitionExplainable Models	CodeCode Available	0	5
Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ Documents	Nov 23, 2024	Question AnsweringRAG	CodeCode Available	0	5
Biomedical Visual Instruction Tuning with Clinician Preference Alignment	Jun 19, 2024	Instruction FollowingVisual Question Answering (VQA)	CodeCode Available	0	5

Show:10 25 50

← PrevPage 24 of 87Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified