Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1201–1225 of 2167 papers

Title	Date	Tasks	Status
An Empirical Comparison of Optimizers for Quantum Machine Learning with SPSA-based Gradients	Apr 27, 2023	Quantum Machine LearningVisual Question Answering (VQA)	—Unverified
An Empirical Evaluation of Visual Question Answering for Novel Objects	Apr 8, 2017	Question AnsweringVisual Question Answering	—Unverified
An Empirical Study of Batch Normalization and Group Normalization in Conditional Computation	Jul 31, 2019	Conditional Image GenerationFew-Shot Learning	—Unverified
An Empirical Study on Leveraging Scene Graphs for Visual Question Answering	Jul 28, 2019	Knowledge GraphsQuestion Answering	—Unverified
An Empirical Study on the Generalization Power of Neural Representations Learned via Visual Guessing Games	Jan 31, 2021	Question AnsweringVisual Question Answering	—Unverified
An Empirical Study on the Language Modal in Visual Question Answering	May 17, 2023	Question AnsweringVisual Question Answering	—Unverified
An Evaluation of GPT-4V and Gemini in Online VQA	Dec 17, 2023	Question AnsweringVisual Question Answering	—Unverified
An Evaluation of Image-Based Verb Prediction Models against Human Eye-Tracking Data	Jun 1, 2018	General ClassificationQuestion Answering	—Unverified
An experimental study of the vision-bottleneck in VQA	Feb 14, 2022	ObjectQuestion Answering	—Unverified
Annotation Methodologies for Vision and Language Dataset Creation	Jul 10, 2016	Action RecognitionImage Description	—Unverified
A Novel Attention-based Aggregation Function to Combine Vision and Language	Apr 27, 2020	General ClassificationImage Captioning	—Unverified
A Novel Framework for Robustness Analysis of Visual QA Models	Nov 16, 2017	Question AnsweringVisual Question Answering	—Unverified
A Novel Stochastic LSTM Model Inspired by Quantum Machine Learning	May 17, 2023	Quantum Machine LearningVisual Question Answering (VQA)	—Unverified
Answer-checking in Context: A Multi-modal FullyAttention Network for Visual Question Answering	Oct 17, 2020	Question AnsweringVisual Question Answering	—Unverified
Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering	May 2, 2022	DecoderImage Captioning	—Unverified
Answer-Type Prediction for Visual Question Answering	Jun 1, 2016	Object RecognitionPrediction	—Unverified
AOR: Anatomical Ontology-Guided Reasoning for Medical Large Multimodal Model in Chest X-Ray Interpretation	May 5, 2025	AnatomyDiagnostic	—Unverified
A Picture May Be Worth a Hundred Words for Visual Question Answering	Jun 25, 2021	Data AugmentationDescriptive	—Unverified
Application of Multimodal Large Language Models in Autonomous Driving	Dec 21, 2024	Autonomous DrivingDecision Making	—Unverified
ArcSin: Adaptive ranged cosine Similarity injected noise for Language-Driven Visual Tasks	Feb 27, 2024	Domain GeneralizationImage Captioning	—Unverified
A reinforcement learning approach for VQA validation: an application to diabetic macular edema grading	Jul 19, 2023	Medical Image AnalysisQuestion Answering	—Unverified
A Reinforcement Learning Framework for Natural Question Generation using Bi-discriminators	Aug 1, 2018	AttributeNatural Questions	—Unverified
A Restricted Visual Turing Test for Deep Scene and Event Understanding	Dec 6, 2015	Question AnsweringVideo Captioning	—Unverified
A review of Quantum Neural Networks: Methods, Models, Dilemma	Sep 4, 2021	Computational EfficiencyVisual Question Answering (VQA)	—Unverified
Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions	Jun 8, 2021	Question AnsweringVisual Question Answering	—Unverified

Show:10 25 50

← PrevPage 49 of 87Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified