Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1051–1100 of 2167 papers

Title	Date	Tasks	Status
Visual Grounding Strategies for Text-Only Natural Language Processing	Mar 25, 2021	Image RetrievalLanguage Modeling	—Unverified
Visual Hallucination: Definition, Quantification, and Prescriptive Remediations	Mar 26, 2024	HallucinationImage Captioning	—Unverified
Visually Guided Spatial Relation Extraction from Text	Jun 1, 2018	Activity RecognitionImage Captioning	—Unverified
Visual Mechanisms Inspired Efficient Transformers for Image and Video Quality Assessment	Mar 28, 2022	Image Quality AssessmentVideo Quality Assessment	—Unverified
Visual Perturbation-aware Collaborative Learning for Overcoming the Language Prior Problem	Jul 24, 2022	DiagnosticQuestion Answering	—Unverified
Visual Program Distillation: Distilling Tools and Programmatic Reasoning into Vision-Language Models	Dec 5, 2023	Language ModelingLanguage Modelling	—Unverified
Visual Query Answering by Entity-Attribute Graph Matching and Reasoning	Mar 16, 2019	AttributeGraph Matching	—Unverified
Visual Question Answering as a Meta Learning Task	Nov 22, 2017	Meta-LearningQuestion Answering	—Unverified
Visual Question Answering as a Multi-Task Problem	Jul 3, 2020	Question AnsweringVisual Question Answering	—Unverified
Visual Question Answering as Reading Comprehension	Nov 29, 2018	Common Sense ReasoningGeneral Knowledge	—Unverified
Visual Question Answering: A Survey on Techniques and Common Trends in Recent Literature	May 18, 2023	Question AnsweringVisual Question Answering	—Unverified
Visual question answering based evaluation metrics for text-to-image generation	Nov 15, 2024	Image GenerationImage Manipulation	—Unverified
Visual Question Answering based on Formal Logic	Nov 8, 2021	Formal LogicQuestion Answering	—Unverified
Visual Question Answering based on Local-Scene-Aware Referring Expression Generation	Jan 22, 2021	Question AnsweringReferring Expression	—Unverified
Visual Question Answering Dataset for Bilingual Image Understanding: A Study of Cross-Lingual Transfer Using Attention Maps	Aug 1, 2018	Cross-Lingual TransferImage Captioning	—Unverified
Visual Question Answering for Cultural Heritage	Mar 22, 2020	Question AnsweringVisual Question Answering	—Unverified
Visual question answering: from early developments to recent advances -- a survey	Jan 7, 2025	DescriptiveNatural Language Understanding	—Unverified
Visual Question Answering in Ophthalmology: A Progressive and Practical Perspective	Oct 22, 2024	Question AnsweringVisual Question Answering	—Unverified
Visual Question Answering in Remote Sensing with Cross-Attention and Multimodal Information Bottleneck	Jun 25, 2023	object-detectionObject Detection	—Unverified
Visual Question Answering Instruction: Unlocking Multimodal Large Language Model To Domain-Specific Visual Multitasks	Feb 13, 2024	Language ModelingLanguage Modelling	—Unverified
Visual Question Answering in the Medical Domain	Sep 20, 2023	Contrastive LearningMedical Visual Question Answering	—Unverified
Visual Question Answering on 360° Images	Jan 10, 2020	Question AnsweringVisual Question Answering	—Unverified
Visual Question Answering on Image Sets	Aug 27, 2020	Question AnsweringVisual Question Answering	—Unverified
Visual Question Answering on Multiple Remote Sensing Image Modalities	May 21, 2025	Question AnsweringVisual Question Answering	—Unverified
Visual Question Answering Using Semantic Information from Image Descriptions	Apr 23, 2020	Question AnsweringVisual Question Answering	—Unverified
Visual Question Answering (VQA) on Images with Superimposed Text	Jun 13, 2023	Question AnsweringVisual Question Answering	—Unverified
Visual Question Answering with Memory-Augmented Networks	Jul 17, 2017	Question AnsweringVisual Question Answering	—Unverified
Visual Question Answering with Prior Class Semantics	May 4, 2020	Question AnsweringVisual Question Answering	—Unverified
Visual Question Answering with Question Representation Update (QRU)	Dec 1, 2016	Question AnsweringVisual Question Answering	—Unverified
Visual Question Decomposition on Multimodal Large Language Models	Sep 28, 2024	Visual Question Answering (VQA)	—Unverified
Visual Question Generation as Dual Task of Visual Question Answering	Sep 21, 2017	Question AnsweringQuestion Generation	—Unverified
Visual Question: Predicting If a Crowd Will Agree on the Answer	Aug 29, 2016	Question Answeringvalid	—Unverified
Visual Question Reasoning on General Dependency Tree	Mar 31, 2018	Question AnsweringVisual Question Answering	—Unverified
Visual Reference Resolution using Attention Memory for Visual Dialog	Sep 23, 2017	Parameter PredictionQuestion Answering	—Unverified
Visual Relationship Detection using Scene Graphs: A Survey	May 16, 2020	Graph GenerationImage Generation	—Unverified
Visual Superordinate Abstraction for Robust Concept Learning	May 28, 2022	AttributeQuestion Answering	—Unverified
Visual TTR - Modelling Visual Question Answering in Type Theory with Records	May 1, 2019	Question AnsweringVisual Question Answering	—Unverified
ViT3D Alignment of LLaMA3: 3D Medical Image Report Generation	Oct 11, 2024	DiagnosticLanguage Modeling	—Unverified
VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending	May 22, 2023	Question AnsweringRetrieval	—Unverified
VL-BEiT: Generative Vision-Language Pretraining	Jun 2, 2022	image-classificationImage Classification	—Unverified
VLMAE: Vision-Language Masked Autoencoder	Aug 19, 2022	Image-text RetrievalLanguage Modeling	—Unverified
VLM-Assisted Continual learning for Visual Question Answering in Self-Driving	Feb 2, 2025	Autonomous DrivingContinual Learning	—Unverified
VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation	Dec 13, 2024	Instruction FollowingQuestion Answering	—Unverified
EVJVQA Challenge: Multilingual Visual Question Answering	Feb 23, 2023	Language ModelingLanguage Modelling	—Unverified
VMAF And Variants: Towards A Unified VQA	Mar 13, 2021	feature selectionregression	—Unverified
VQA-Aid: Visual Question Answering for Post-Disaster Damage Assessment and Analysis	Jun 19, 2021	Question AnsweringVisual Question Answering	—Unverified
VQA and Visual Reasoning: An Overview of Recent Datasets, Methods and Challenges	Dec 26, 2022	Representation LearningVisual Question Answering (VQA)	—Unverified
VQABQ: Visual Question Answering by Basic Questions	Mar 19, 2017	Question AnsweringVisual Question Answering	—Unverified
VQA-Diff: Exploiting VQA and Diffusion for Zero-Shot Image-to-3D Vehicle Asset Generation in Autonomous Driving	Jul 9, 2024	Autonomous DrivingImage to 3D	—Unverified
VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions	Mar 20, 2018	Explanatory Visual Question AnsweringMulti-Task Learning	—Unverified

Show:10 25 50

← PrevPage 22 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified