Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2001–2025 of 2167 papers

Title	Date	Tasks	Status
Deep Modular Co-Attention Networks for Visual Question Answering	Jun 25, 2019	Question AnsweringVisual Question Answering	CodeCode Available
Declarative Knowledge Distillation from Large Language Models for Visual Question Answering Datasets	Oct 12, 2024	Knowledge DistillationQuestion Answering	CodeCode Available
Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering	May 21, 2024	DiversityInformation Retrieval	CodeCode Available
Robustness through Data Augmentation Loss Consistency	Oct 21, 2021	Multi-domain Dialogue State TrackingVisual Question Answering	CodeCode Available
Answer Questions with Right Image Regions: A Visual Attention Regularization Approach	Feb 3, 2021	Question AnsweringVisual Grounding	CodeCode Available
Recommending Themes for Ad Creative Design via Visual-Linguistic Representations	Jan 20, 2020	Question AnsweringRecommendation Systems	CodeCode Available
D3: Data Diversity Design for Systematic Generalization in Visual Question Answering	Sep 15, 2023	DiversityQuestion Answering	CodeCode Available
Recursive Visual Attention in Visual Dialog	Dec 6, 2018	Question AnsweringVisual Dialog	CodeCode Available
II-MMR: Identifying and Improving Multi-modal Multi-hop Reasoning in Visual Question Answering	Feb 16, 2024	Question AnsweringTriplet	CodeCode Available
ReDiT: Re‑evaluating large visual question answering model confidence by defining input scenario Difficulty and applying Temperature mapping	Jan 6, 2025	Question AnsweringVisual Question Answering	CodeCode Available
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data	Oct 1, 2024	Code GenerationLogical Reasoning	CodeCode Available
Towards Knowledge-Augmented Visual Question Answering	Dec 1, 2020	General KnowledgeGraph Attention	CodeCode Available
https://arxiv.org/abs/2407.00634	Jul 2, 2024	Video CaptioningVideo Description	CodeCode Available
Towards Language-guided Visual Recognition via Dynamic Convolutions	Oct 17, 2021	Question AnsweringReferring Expression	CodeCode Available
Answering Questions about Data Visualizations using Efficient Bimodal Fusion	Aug 5, 2019	Chart Question AnsweringOptical Character Recognition	CodeCode Available
Relation-Aware Graph Attention Network for Visual Question Answering	Mar 29, 2019	Graph AttentionImplicit Relations	CodeCode Available
HRIBench: Benchmarking Vision-Language Models for Real-Time Human Perception in Human-Robot Interaction	Jun 25, 2025	BenchmarkingPerson Identification	CodeCode Available
How to Determine the Preferred Image Distribution of a Black-Box Vision-Language Model?	Sep 3, 2024	In-Context LearningLanguage Modeling	CodeCode Available
How Modular Should Neural Module Networks Be for Systematic Generalization?	Jun 15, 2021	Question AnsweringSystematic Generalization	CodeCode Available
High-Order Attention Models for Visual Question Answering	Nov 12, 2017	Question AnsweringVisual Question Answering	CodeCode Available
REMIND Your Neural Network to Prevent Catastrophic Forgetting	Oct 6, 2019	QuantizationQuestion Answering	CodeCode Available
Hierarchical Deep Multi-modal Network for Medical Visual Question Answering	Sep 27, 2020	DescriptiveMedical Visual Question Answering	CodeCode Available
Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering	Apr 8, 2019	Question AnsweringVideo Question Answering	CodeCode Available
cViL: Cross-Lingual Training of Vision-Language Models using Knowledge Distillation	Jun 7, 2022	Knowledge DistillationQuestion Answering	CodeCode Available
Cross-Modal Transferable Image-to-Video Attack on Video Quality Metrics	Jan 14, 2025	Video Quality AssessmentVisual Question Answering (VQA)	CodeCode Available

Show:10 25 50

← PrevPage 81 of 87Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified