Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 701–750 of 2167 papers

Title	Date	Tasks	Status
Avoiding Barren Plateaus with Classical Deep Neural Networks	May 26, 2022	Visual Question Answering (VQA)	—Unverified
Analysis of Visual Question Answering Algorithms with attention model	May 4, 2023	Question AnsweringVisual Question Answering	—Unverified
Curriculum Script Distillation for Multilingual Visual Question Answering	Jan 17, 2023	Question AnsweringVisual Question Answering	—Unverified
Curriculum reinforcement learning for quantum architecture search under hardware errors	Feb 5, 2024	3D ArchitectureComputational Efficiency	—Unverified
A Visual Question Answering Method for SAR Ship: Breaking the Requirement for Multimodal Dataset Construction and Model Fine-Tuning	Nov 3, 2024	object-detectionObject Detection	—Unverified
Inverse Visual Question Answering with Multi-Level Attentions	Sep 17, 2019	Question AnsweringVisual Question Answering	—Unverified
Curriculum Learning for Compositional Visual Reasoning	Mar 27, 2023	Question AnsweringVisual Question Answering	—Unverified
Curriculum Learning Effectively Improves Low Data VQA	Dec 1, 2021	Question AnsweringVisual Question Answering	—Unverified
A Vision Centric Remote Sensing Benchmark	Mar 20, 2025	Question AnsweringRepresentation Learning	—Unverified
CT-Agent: A Multimodal-LLM Agent for 3D CT Radiology Question Answering	May 22, 2025	Computed Tomography (CT)Question Answering	—Unverified
AVIS: Autonomous Visual Information Seeking with Large Language Model Agent	Jun 13, 2023	Decision MakingLanguage Modeling	—Unverified
CS-VQA: Visual Question Answering with Compressively Sensed Images	Jun 8, 2018	Question AnsweringVisual Question Answering	—Unverified
CrossVQA: Scalably Generating Benchmarks for Systematically Testing VQA Generalization	Nov 1, 2021	Answer GenerationQuestion-Answer-Generation	—Unverified
Auto-Parsing Network for Image Captioning and Visual Question Answering	Aug 24, 2021	Image CaptioningQuestion Answering	—Unverified
A Multimodal Memes Classification: A Survey and Open Research Issues	Sep 17, 2020	ClassificationGeneral Classification	—Unverified
A dataset of clinically generated visual questions and answers about radiology images	Nov 20, 2018	Decision MakingMedical Visual Question Answering	—Unverified
2nd Place Solution to the GQA Challenge 2019	Jul 16, 2019	Question AnsweringVisual Question Answering	—Unverified
Inverse Visual Question Answering: A New Benchmark and VQA Diagnosis Tool	Mar 16, 2018	Question AnsweringReinforcement Learning	—Unverified
ISAAQ -- Mastering Textbook Questions with Pre-trained Transformers and Bottom-Up and Top-Down Attention	Oct 1, 2020	Multiple-choiceQuestion Answering	—Unverified
Joint learning of object graph and relation graph for visual question answering	May 9, 2022	AttributeGraph Neural Network	—Unverified
Cross-Modal Retrieval Augmentation for Multi-Modal Classification	Apr 16, 2021	ClassificationCross-Modal Retrieval	—Unverified
Cross-modal Knowledge Reasoning for Knowledge-based Visual Question Answering	Aug 31, 2020	Knowledge GraphsQuestion Answering	—Unverified
Cross-Modal Generative Augmentation for Visual Question Answering	May 11, 2021	Data AugmentationQuestion Answering	—Unverified
American == White in Multimodal Language-and-Image AI	Jul 1, 2022	Image CaptioningQuestion Answering	—Unverified
A Dataset for Multimodal Question Answering in the Cultural Heritage Domain	Dec 1, 2016	Question AnsweringSpeech Recognition	—Unverified
Interpretable Visual Question Answering by Visual Grounding from Attention Supervision Mining	Aug 1, 2018	Question AnsweringVisual Grounding	—Unverified
Interpretable Visual Question Answering by Reasoning on Dependency Trees	Sep 6, 2018	Question Answeringvalid	—Unverified
Interpretable Visual Question Answering via Reasoning Supervision	Sep 7, 2023	Common Sense ReasoningQuestion Answering	—Unverified
Interpretable Visual Reasoning via Probabilistic Formulation under Natural Supervision	Aug 1, 2020	Question AnsweringVisual Question Answering	—Unverified
Crossformer: Transformer with Alternated Cross-Layer Guidance	Sep 29, 2021	Inductive BiasMachine Translation	—Unverified
Cross-Dataset Adaptation for Visual Question Answering	Jun 10, 2018	Domain AdaptationQuestion Answering	—Unverified
A Unified Framework for Multilingual and Code-Mixed Visual Question Answering	Dec 1, 2020	Question AnsweringVisual Question Answering	—Unverified
Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models	Jan 20, 2020	Question AnsweringVisual Question Answering	—Unverified
CQ-VQA: Visual Question Answering on Categorized Questions	Feb 17, 2020	Question AnsweringVisual Question Answering	—Unverified
Augmenting Image Question Answering Dataset by Exploiting Image Captions	May 1, 2018	Data AugmentationImage Captioning	—Unverified
CP-LLM: Context and Pixel Aware Large Language Model for Video Quality Assessment	May 21, 2025	Language ModelingLanguage Modelling	—Unverified
Co-VQA : Answering by Interactive Sub Question Sequence	Apr 2, 2022	Question AnsweringVisual Question Answering	—Unverified
``Look, some Green Circles!'': Learning to Quantify from Images	Aug 1, 2016	Question AnsweringVisual Question Answering (VQA)	—Unverified
Interpretable Visual Question Answering Referring to Outside Knowledge	Mar 8, 2023	DiversityImage Captioning	—Unverified
Co-VQA : Answering by Interactive Sub Question Sequence	Nov 16, 2021	Question AnsweringVisual Question Answering	—Unverified
Audio-Visual Quality Assessment for User Generated Content: Database and Method	Mar 4, 2023	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified
Accounting for Focus Ambiguity in Visual Questions	Jan 4, 2025	Question AnsweringVisual Question Answering	—Unverified
Counterfactual Vision and Language Learning	Jun 1, 2020	counterfactualQuestion Answering	—Unverified
All You May Need for VQA are Image Captions	Jan 16, 2022	AllImage Captioning	—Unverified
Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models	Jan 3, 2025	Binary ClassificationFace Anti-Spoofing	—Unverified
Attentive Explanations: Justifying Decisions and Pointing to the Evidence (Extended Abstract)	Nov 17, 2017	Question AnsweringVisual Question Answering (VQA)	—Unverified
Cost Function Dependent Barren Plateaus in Shallow Parametrized Quantum Circuits	Jan 2, 2020	Visual Question Answering (VQA)	—Unverified
Attentive Explanations: Justifying Decisions and Pointing to the Evidence	Dec 14, 2016	Decision MakingQuestion Answering	—Unverified
Interpretable Medical Image Visual Question Answering via Multi-Modal Relationship Graph Learning	Feb 19, 2023	Graph LearningMedical Visual Question Answering	—Unverified
CoRe-MMRAG: Cross-Source Knowledge Reconciliation for Multimodal RAG	Jun 3, 2025	Answer GenerationRAG	—Unverified

Show:10 25 50

← PrevPage 15 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified