Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1201–1250 of 2167 papers

Title	Date	Tasks	Status
An Empirical Comparison of Optimizers for Quantum Machine Learning with SPSA-based Gradients	Apr 27, 2023	Quantum Machine LearningVisual Question Answering (VQA)	—Unverified
An Empirical Evaluation of Visual Question Answering for Novel Objects	Apr 8, 2017	Question AnsweringVisual Question Answering	—Unverified
An Empirical Study of Batch Normalization and Group Normalization in Conditional Computation	Jul 31, 2019	Conditional Image GenerationFew-Shot Learning	—Unverified
An Empirical Study on Leveraging Scene Graphs for Visual Question Answering	Jul 28, 2019	Knowledge GraphsQuestion Answering	—Unverified
An Empirical Study on the Generalization Power of Neural Representations Learned via Visual Guessing Games	Jan 31, 2021	Question AnsweringVisual Question Answering	—Unverified
An Empirical Study on the Language Modal in Visual Question Answering	May 17, 2023	Question AnsweringVisual Question Answering	—Unverified
An Evaluation of GPT-4V and Gemini in Online VQA	Dec 17, 2023	Question AnsweringVisual Question Answering	—Unverified
An Evaluation of Image-Based Verb Prediction Models against Human Eye-Tracking Data	Jun 1, 2018	General ClassificationQuestion Answering	—Unverified
An experimental study of the vision-bottleneck in VQA	Feb 14, 2022	ObjectQuestion Answering	—Unverified
Annotation Methodologies for Vision and Language Dataset Creation	Jul 10, 2016	Action RecognitionImage Description	—Unverified
A Novel Attention-based Aggregation Function to Combine Vision and Language	Apr 27, 2020	General ClassificationImage Captioning	—Unverified
A Novel Framework for Robustness Analysis of Visual QA Models	Nov 16, 2017	Question AnsweringVisual Question Answering	—Unverified
A Novel Stochastic LSTM Model Inspired by Quantum Machine Learning	May 17, 2023	Quantum Machine LearningVisual Question Answering (VQA)	—Unverified
Answer-checking in Context: A Multi-modal FullyAttention Network for Visual Question Answering	Oct 17, 2020	Question AnsweringVisual Question Answering	—Unverified
Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering	May 2, 2022	DecoderImage Captioning	—Unverified
Answer-Type Prediction for Visual Question Answering	Jun 1, 2016	Object RecognitionPrediction	—Unverified
AOR: Anatomical Ontology-Guided Reasoning for Medical Large Multimodal Model in Chest X-Ray Interpretation	May 5, 2025	AnatomyDiagnostic	—Unverified
A Picture May Be Worth a Hundred Words for Visual Question Answering	Jun 25, 2021	Data AugmentationDescriptive	—Unverified
Application of Multimodal Large Language Models in Autonomous Driving	Dec 21, 2024	Autonomous DrivingDecision Making	—Unverified
ArcSin: Adaptive ranged cosine Similarity injected noise for Language-Driven Visual Tasks	Feb 27, 2024	Domain GeneralizationImage Captioning	—Unverified
A reinforcement learning approach for VQA validation: an application to diabetic macular edema grading	Jul 19, 2023	Medical Image AnalysisQuestion Answering	—Unverified
A Reinforcement Learning Framework for Natural Question Generation using Bi-discriminators	Aug 1, 2018	AttributeNatural Questions	—Unverified
A Restricted Visual Turing Test for Deep Scene and Event Understanding	Dec 6, 2015	Question AnsweringVideo Captioning	—Unverified
A review of Quantum Neural Networks: Methods, Models, Dilemma	Sep 4, 2021	Computational EfficiencyVisual Question Answering (VQA)	—Unverified
Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions	Jun 8, 2021	Question AnsweringVisual Question Answering	—Unverified
Are we asking the right questions in MovieQA?	Nov 8, 2019	Question AnsweringVisual Question Answering	—Unverified
Are we pretraining it right? Digging deeper into visio-linguistic pretraining	Apr 19, 2020	Visual Question Answering (VQA)	—Unverified
Are You Smarter Than a Sixth Grader? Textbook Question Answering for Multimodal Machine Comprehension	Jul 1, 2017	Question AnsweringReading Comprehension	—Unverified
Are You Talking to a Machine? Dataset and Methods for Multilingual Image Question	Dec 1, 2015	Question AnsweringSentence	—Unverified
Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning	Nov 21, 2017	Question AnsweringReinforcement Learning	—Unverified
ASCD: Attention-Steerable Contrastive Decoding for Reducing Hallucination in MLLM	Jun 17, 2025	HallucinationLanguage Modeling	—Unverified
A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models	Feb 17, 2024	DiagnosticVisual Question Answering (VQA)	—Unverified
A Shared Task on Multimodal Machine Translation and Crosslingual Image Description	Aug 1, 2016	Image DescriptionImage Retrieval	—Unverified
A Short Survey of Systematic Generalization	Nov 22, 2022	SurveySystematic Generalization	—Unverified
Asking More Informative Questions for Grounded Retrieval	Nov 14, 2023	Question AnsweringQuestion Selection	—Unverified
Asking questions on handwritten document collections	Oct 2, 2021	Optical Character Recognition (OCR)Question Answering	—Unverified
Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources	Nov 22, 2015	FormGeneral Knowledge	—Unverified
Assessing Image Quality Issues for Real-World Problems	Mar 27, 2020	Image CaptioningQuestion Answering	—Unverified
Assessing the Robustness of Visual Question Answering Models	Nov 30, 2019	Question AnsweringVisual Question Answering	—Unverified
Assessing Visual Quality of Omnidirectional Videos	Jul 14, 2019	Visual Question Answering (VQA)	—Unverified
Assessment of Subjective and Objective Quality of Live Streaming Sports Videos	Jun 15, 2021	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified
Assisting Scene Graph Generation with Self-Supervision	Aug 8, 2020	Graph GenerationImage Captioning	—Unverified
Astrea: A MOE-based Visual Understanding Model with Progressive Alignment	Mar 12, 2025	Contrastive LearningCross-Modal Retrieval	—Unverified
A Study on Multimodal and Interactive Explanations for Visual Question Answering	Mar 1, 2020	Explainable Artificial Intelligence (XAI)Prediction	—Unverified
A survey on knowledge-enhanced multimodal learning	Nov 19, 2022	Conditional Image GenerationFactual Visual Question Answering	—Unverified
A survey on VQA_Datasets and Approaches	May 2, 2021	Question AnsweringSurvey	—Unverified
A Thousand Words Are Worth More Than a Picture: Natural Language-Centric Outside-Knowledge Visual Question Answering	Jan 14, 2022	Generative Question AnsweringImage to text	—Unverified
A Token-level Text Image Foundation Model for Document Understanding	Mar 4, 2025	document understandingVisual Question Answering (VQA)	—Unverified
A Transformer-based Cross-modal Fusion Model with Adversarial Training for VQA Challenge 2021	Jun 24, 2021	Visual Question Answering (VQA)	—Unverified
Attention Guided Semantic Relationship Parsing for Visual Question Answering	Oct 5, 2020	ObjectQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 25 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified