Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1651–1700 of 2167 papers

Title	Date	Tasks	Status
VQA with Cascade of Self- and Co-Attention Blocks	Feb 28, 2023	Question AnsweringVisual Question Answering	—Unverified
VSA4VQA: Scaling a Vector Symbolic Architecture to Visual Question Answering on Natural Images	May 6, 2024	AttributeLanguage Modeling	—Unverified
Watching the News: Towards VideoQA Models that can Read	Nov 10, 2022	Question AnsweringVideo Question Answering	—Unverified
Weakly Supervised Visual Question Answer Generation	Jun 11, 2023	Answer GenerationDependency Parsing	—Unverified
Weak Supervision helps Emergence of Word-Object Alignment and improves Vision-Language Tasks	Dec 6, 2019	Image RetrievalInductive Bias	—Unverified
Webly Supervised Concept Expansion for General Purpose Vision Models	Feb 4, 2022	Human-Object Interaction DetectionImage Retrieval	—Unverified
What is needed for simple spatial language capabilities in VQA?	Aug 17, 2019	DiagnosticQuestion Answering	—Unverified
What Large Language Models Bring to Text-rich VQA?	Nov 13, 2023	Image ComprehensionOptical Character Recognition (OCR)	—Unverified
What makes a good metric? Evaluating automatic metrics for text-to-image consistency	Dec 18, 2024	SensitivityVisual Question Answering (VQA)	—Unverified
When are Lemons Purple? The Concept Association Bias of Vision-Language Models	Dec 22, 2022	Attributeimage-classification	—Unverified
Where is this coming from? Making groundedness count in the evaluation of Document VQA models	Mar 24, 2025	Question AnsweringVisual Question Answering	—Unverified
Where To Look: Focus Regions for Visual Question Answering	Nov 23, 2015	Question AnsweringVisual Question Answering	—Unverified
Which Client is Reliable?: A Reliable and Personalized Prompt-based Federated Learning for Medical Image Question Answering	Oct 23, 2024	Federated LearningMedical Visual Question Answering	—Unverified
Why context matters in VQA and Reasoning: Semantic interventions for VLM input modalities	Oct 2, 2024	Question AnsweringVisual Question Answering	—Unverified
Why Does a Visual Question Have Different Answers?	Aug 12, 2019	Question AnsweringVisual Question Answering	—Unverified
Why Does the VQA Model Answer No?: Improving Reasoning through Visual and Linguistic Inference	Sep 25, 2019	Common Sense ReasoningQuestion Answering	—Unverified
WoLF: Wide-scope Large Language Model Framework for CXR Understanding	Mar 19, 2024	AnatomyInstruction Following	—Unverified
Workshop on Document Intelligence Understanding	Jul 31, 2023	document understandingVisual Question Answering (VQA)	—Unverified
WSI-LLaVA: A Multimodal Large Language Model for Whole Slide Image	Dec 3, 2024	DiagnosticLanguage Modeling	—Unverified
WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models	Mar 22, 2022	Image CaptioningImage Generation	—Unverified
XGPT: Cross-modal Generative Pre-Training for Image Captioning	Mar 3, 2020	Data AugmentationDenoising	—Unverified
xGQA: Cross-Lingual Visual Question Answering	Oct 16, 2021	Cross-Lingual TransferLanguage Modeling	—Unverified
Yin and Yang: Balancing and Answering Binary Visual Questions	Nov 16, 2015	Question AnsweringVisual Question Answering	—Unverified
YouMakeup: A Large-Scale Domain-Specific Multimodal Dataset for Fine-Grained Semantic Comprehension	Nov 1, 2019	Caption GenerationQuestion Answering	—Unverified
ZALM3: Zero-Shot Enhancement of Vision-Language Alignment via In-Context Information in Multi-Turn Multimodal Medical Dialogue	Sep 26, 2024	Medical Visual Question AnsweringQuestion Answering	—Unverified
Zero-Shot Anomaly Detection in Battery Thermal Images Using Visual Question Answering with Prior Knowledge	May 22, 2025	Anomaly DetectionQuestion Answering	—Unverified
Zero-Shot Transfer VQA Dataset	Nov 2, 2018	Question AnsweringTransfer Learning	—Unverified
Zero-Shot Video Question Answering with Procedural Programs	Dec 1, 2023	Code GenerationLanguage Modeling	—Unverified
Zero-Shot Visual Question Answering	Nov 17, 2016	Question AnsweringRetrieval	—Unverified
Zero-Shot Visual Reasoning by Vision-Language Models: Benchmarking and Analysis	Aug 27, 2024	BenchmarkingLarge Language Model	—Unverified
Multimodal Learning and Reasoning for Visual Question Answering	Dec 1, 2017	Question AnsweringRepresentation Learning	—Unverified
Scene Graph Reasoning with Prior Visual Relationship for Visual Question Answering	Dec 23, 2018	Cross-Modal Information RetrievalInformation Retrieval	—Unverified
Multimodal Machine Learning: Integrating Language, Vision and Speech	Jul 1, 2017	Audio-Visual Speech RecognitionBIG-bench Machine Learning	—Unverified
Multimodal Neural Graph Memory Networks for Visual Question Answering	Jul 1, 2020	Graph Neural NetworkQuestion Answering	—Unverified
Multimodal Neural Machine Translation for Low-resource Language Pairs using Synthetic Data	Jul 1, 2018	Image DescriptionMachine Translation	—Unverified
Multimodal Reranking for Knowledge-Intensive Visual Question Answering	Jul 17, 2024	Answer GenerationQuestion Answering	—Unverified
Multi-Modal Retrieval Augmentation for Open-Ended and Knowledge-Intensive Video Question Answering	Feb 17, 2025	Multiple-choiceQuestion Answering	—Unverified
Multimodal Unified Attention Networks for Vision-and-Language Interactions	Aug 12, 2019	Question AnsweringVisual Grounding	—Unverified
Multiple-Question Multiple-Answer Text-VQA	Nov 15, 2023	DecoderDenoising	—Unverified
Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based Person Re-Identification	Dec 28, 2023	Attributecross-modal alignment	—Unverified
Multi-task Learning of Hierarchical Vision-Language Representation	Dec 3, 2018	Multi-Task LearningQuestion Answering	—Unverified
MUST-VQA: MUltilingual Scene-text VQA	Sep 14, 2022	Question AnsweringVisual Question Answering	—Unverified
MuVAM: A Multi-View Attention-based Model for Medical Visual Question Answering	Jul 7, 2021	Medical Visual Question AnsweringMissing Labels	—Unverified
NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples	Oct 18, 2024	AttributeQuestion Answering	—Unverified
Natural Language Understanding and Inference with MLLM in Visual Question Answering: A Survey	Nov 26, 2024	Natural Language UnderstandingQuestion Answering	—Unverified
Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving	May 9, 2025	Autonomous DrivingBackdoor Attack	—Unverified
Negative Object Presence Evaluation (NOPE) to Measure Object Hallucination in Vision-Language Models	Oct 9, 2023	HallucinationObject	—Unverified
NegVQA: Can Vision Language Models Understand Negation?	May 28, 2025	NegationQuestion Answering	—Unverified
Neural Attention Models for Sequence Classification: Analysis and Application to Key Term Extraction and Dialogue Act Detection	Mar 31, 2016	Caption GenerationClassification	—Unverified
Neural Memory Plasticity for Anomaly Detection	Oct 12, 2019	Anomaly DetectionEEG	—Unverified

Show:10 25 50

← PrevPage 34 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	InternVL-C	Accuracy	81.2	—	Unverified
10	Lyrics	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified