Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1351–1400 of 2167 papers

Title	Date	Tasks	Status
CQ-VQA: Visual Question Answering on Categorized Questions	Feb 17, 2020	Question AnsweringVisual Question Answering	—Unverified
Cross-Dataset Adaptation for Visual Question Answering	Jun 10, 2018	Domain AdaptationQuestion Answering	—Unverified
Crossformer: Transformer with Alternated Cross-Layer Guidance	Sep 29, 2021	Inductive BiasMachine Translation	—Unverified
Cross-Modal Generative Augmentation for Visual Question Answering	May 11, 2021	Data AugmentationQuestion Answering	—Unverified
Cross-modal Knowledge Reasoning for Knowledge-based Visual Question Answering	Aug 31, 2020	Knowledge GraphsQuestion Answering	—Unverified
Cross-Modal Retrieval Augmentation for Multi-Modal Classification	Apr 16, 2021	ClassificationCross-Modal Retrieval	—Unverified
CrossVQA: Scalably Generating Benchmarks for Systematically Testing VQA Generalization	Nov 1, 2021	Answer GenerationQuestion-Answer-Generation	—Unverified
CS-VQA: Visual Question Answering with Compressively Sensed Images	Jun 8, 2018	Question AnsweringVisual Question Answering	—Unverified
CT-Agent: A Multimodal-LLM Agent for 3D CT Radiology Question Answering	May 22, 2025	Computed Tomography (CT)Question Answering	—Unverified
Curriculum Learning Effectively Improves Low Data VQA	Dec 1, 2021	Question AnsweringVisual Question Answering	—Unverified
Curriculum Learning for Compositional Visual Reasoning	Mar 27, 2023	Question AnsweringVisual Question Answering	—Unverified
Curriculum reinforcement learning for quantum architecture search under hardware errors	Feb 5, 2024	3D ArchitectureComputational Efficiency	—Unverified
Curriculum Script Distillation for Multilingual Visual Question Answering	Jan 17, 2023	Question AnsweringVisual Question Answering	—Unverified
C-VQA: A Compositional Split of the Visual Question Answering (VQA) v1.0 Dataset	Apr 26, 2017	Question AnsweringVisual Question Answering	—Unverified
CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark	Jun 10, 2024	DiversityQuestion Answering	—Unverified
Cycle-Consistency for Robust Visual Question Answering	Feb 15, 2019	Question AnsweringQuestion Generation	—Unverified
DARE: Diverse Visual Question Answering with Robustness Evaluation	Sep 26, 2024	image-classificationImage Classification	—Unverified
Data Augmentation for Visual Question Answering	Sep 1, 2017	Data AugmentationGeneral Classification	—Unverified
Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction	Apr 24, 2025	Conformal PredictionHallucination	—Unverified
PlotQA: Reasoning over Scientific Plots	Sep 3, 2019	Chart Question AnsweringQuestion Answering	—Unverified
Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-to-Image Generation	Oct 27, 2023	Image GenerationQuestion Answering	—Unverified
DCVQE: A Hierarchical Transformer for Video Quality Assessment	Oct 10, 2022	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified
DDRprog: A CLEVR Differentiable Dynamic Reasoning Programmer	Mar 30, 2018	Question AnsweringVisual Question Answering	—Unverified
Dealing with Missing Modalities in the Visual Question Answer-Difference Prediction Task through Knowledge Distillation	Apr 13, 2021	Knowledge DistillationTriplet	—Unverified
Debating for Better Reasoning: An Unsupervised Multimodal Approach	May 20, 2025	Question AnsweringVisual Question Answering	—Unverified
Decouple Before Interact: Multi-Modal Prompt Learning for Continual Visual Question Answering	Jan 1, 2023	Continual LearningLanguage Modelling	—Unverified
Decoupled Box Proposal and Featurization with Ultrafine-Grained Semantic Labels Improve Image Captioning and Visual Question Answering	Sep 4, 2019	Image CaptioningObject	—Unverified
Deep Attention Neural Tensor Network for Visual Question Answering	Sep 1, 2018	Deep AttentionQuestion Answering	—Unverified
Deep Bayesian Active Learning for Multiple Correct Outputs	Dec 2, 2019	Active LearningAnswer Generation	—Unverified
Deep Equilibrium Multimodal Fusion	Jun 29, 2023	Visual Question Answering (VQA)	—Unverified
Deep Exemplar Networks for VQA and VQG	Dec 19, 2019	DecoderQuestion Answering	—Unverified
Deep learning evaluation using deep linguistic processing	Jun 5, 2017	Deep LearningMultimodal Deep Learning	—Unverified
Deep Quality Assessment of Compressed Videos: A Subjective and Objective Study	May 7, 2022	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified
Deep Video Quality Assessor: From Spatio-temporal Visual Sensitivity to A Convolutional Neural Aggregation Network	Sep 1, 2018	SensitivityVideo Quality Assessment	—Unverified
RankDVQA: Deep VQA based on Ranking-inspired Hybrid Training	Feb 17, 2022	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified
DePlot: One-shot visual language reasoning by plot-to-table translation	Dec 20, 2022	Chart Question AnsweringFactual Inconsistency Detection in Chart Captioning	—Unverified
Detect2Interact: Localizing Object Key Field in Visual Question Answering (VQA) with LLMs	Apr 1, 2024	Common Sense ReasoningObject	—Unverified
Detect, Describe, Discriminate: Moving Beyond VQA for MLLM Evaluation	Sep 23, 2024	Multiple-choiceQuestion Answering	—Unverified
Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions	May 18, 2024	Visual Question Answering (VQA)	—Unverified
DIEM: Decomposition-Integration Enhancing Multimodal Insights	Jan 1, 2024	MM-VetQuestion Answering	—Unverified
Differentiable End-to-End Program Executor for Sample and Computationally Efficient VQA	Jan 1, 2021	Question AnsweringVisual Question Answering	—Unverified
DiffVQA: Video Quality Assessment Using Diffusion Feature Extractor	May 6, 2025	MambaVideo Quality Assessment	—Unverified
DiN: Diffusion Model for Robust Medical VQA with Semantic Noisy Labels	Mar 24, 2025	Medical Visual Question AnsweringQuestion Answering	—Unverified
Directional Gradient Projection for Robust Fine-Tuning of Foundation Models	Feb 21, 2025	image-classificationImage Classification	—Unverified
Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA	Jun 27, 2024	General KnowledgeQuestion Answering	—Unverified
Distraction-free Embeddings for Robust VQA	Aug 31, 2023	Question AnsweringVideo Question Answering	—Unverified
Diversity and Consistency: Exploring Visual Question-Answer Pair Generation	Nov 1, 2021	DiversityQuestion Answering	—Unverified
Divide, Evaluate, and Refine: Evaluating and Improving Text-to-Image Alignment with Iterative VQA Feedback	Jul 10, 2023	Image GenerationVisual Question Answering (VQA)	—Unverified
Document AI: Benchmarks, Models and Applications	Nov 16, 2021	Deep LearningDocument AI	—Unverified
Document Collection Visual Question Answering	Apr 27, 2021	document understandingQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 28 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified