Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 801–850 of 2167 papers

Title	Date	Tasks	Status	Score
Neural Module Networks	Nov 9, 2015	Visual Question AnsweringVisual Question Answering (VQA)	CodeCode Available	5
HRIBench: Benchmarking Vision-Language Models for Real-Time Human Perception in Human-Robot Interaction	Jun 25, 2025	BenchmarkingPerson Identification	CodeCode Available	5
Fully Authentic Visual Question Answering Dataset from Online Communities	Nov 27, 2023	Question AnsweringVisual Question Answering	CodeCode Available	5
https://arxiv.org/abs/2407.00634	Jul 2, 2024	Video CaptioningVideo Description	CodeCode Available	5
Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering	Nov 17, 2015	Image CaptioningQuestion Answering	CodeCode Available	5
Adapting Visual Question Answering Models for Enhancing Multimodal Community Q&A Platforms	Aug 29, 2018	Community Question AnsweringGeneral Classification	CodeCode Available	5
AIS 2024 Challenge on Video Quality Assessment of User-Generated Content: Methods and Results	Apr 24, 2024	Video Quality AssessmentVisual Question Answering (VQA)	CodeCode Available	5
A simple neural network module for relational reasoning	Jun 5, 2017	Image Retrieval with Multi-Modal QueryQuestion Answering	CodeCode Available	5
Multimodal Residual Learning for Visual QA	Jun 5, 2016	Multiple-choiceQuestion Answering	CodeCode Available	5
A Simple Loss Function for Improving the Convergence and Accuracy of Visual Question Answering Models	Aug 2, 2017	Question AnsweringVisual Question Answering	CodeCode Available	5
Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering	Aug 4, 2017	Question AnsweringVisual Question Answering	CodeCode Available	5
CLIPVQA:Video Quality Assessment via CLIP	Jul 6, 2024	Video Quality AssessmentVisual Question Answering (VQA)	CodeCode Available	5
Multimodal Hypothetical Summary for Retrieval-based Multi-image Question Answering	Dec 19, 2024	Contrastive LearningLanguage Modeling	CodeCode Available	5
A Simple Baseline for Knowledge-Based Visual Question Answering	Oct 20, 2023	In-Context LearningQuestion Answering	CodeCode Available	5
From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models	Dec 21, 2022	Question AnsweringVisual Question Answering	CodeCode Available	5
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding	Jun 6, 2016	Phrase GroundingVisual Grounding	CodeCode Available	5
ActivityNet-QA: A Dataset for Understanding Complex Web Videos via Question Answering	Jun 6, 2019	Question AnsweringVideo Question Answering	CodeCode Available	5
Multimodal Explanations: Justifying Decisions and Pointing to the Evidence	Feb 15, 2018	Activity RecognitionExplainable Models	CodeCode Available	5
Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding	Oct 4, 2018	Question AnsweringRepresentation Learning	CodeCode Available	5
Multi-Image Visual Question Answering	Dec 27, 2021	Question AnsweringVisual Question Answering	CodeCode Available	5
II-MMR: Identifying and Improving Multi-modal Multi-hop Reasoning in Visual Question Answering	Feb 16, 2024	Question AnsweringTriplet	CodeCode Available	5
ILLUME: Rationalizing Vision-Language Models through Human Interactions	Aug 17, 2022	Image CaptioningQuestion Answering	CodeCode Available	5
FRAMES-VQA: Benchmarking Fine-Tuning Robustness across Multi-Modal Shifts in Visual Question Answering	May 27, 2025	BenchmarkingQuestion Answering	CodeCode Available	5
ClinKD: Cross-Modal Clinical Knowledge Distiller For Multi-Task Medical Images	Feb 9, 2025	Clinical KnowledgeMedical Visual Question Answering	CodeCode Available	5
MQA: Answering the Question via Robotic Manipulation	Mar 10, 2020	Imitation LearningQuestion Answering	CodeCode Available	5
CLEVR-Ref+: Diagnosing Visual Reasoning with Referring Expressions	Jan 3, 2019	DiagnosticImage Segmentation	CodeCode Available	5
Focal Visual-Text Attention for Visual Question Answering	Jun 5, 2018	Memex Question AnsweringQuestion Answering	CodeCode Available	5
Focal Visual-Text Attention for Memex Question Answering	Dec 14, 2018	Memex Question AnsweringQuestion Answering	CodeCode Available	5
CLEVR\_HYP: A Challenge Dataset and Baselines for Visual Question Answering with Hypothetical Actions over Images	Jun 1, 2021	Question AnsweringVisual Question Answering	CodeCode Available	5
CLEVR_HYP: A Challenge Dataset and Baselines for Visual Question Answering with Hypothetical Actions over Images	Apr 13, 2021	Question AnsweringVisual Question Answering	CodeCode Available	5
ArtQuest: Countering Hidden Language Biases in ArtVQA	Jan 4, 2024	Question AnsweringVisual Question Answering	CodeCode Available	5
Modeling Relationships in Referential Expressions with Compositional Modular Networks	Nov 30, 2016	Visual Question Answering (VQA)	CodeCode Available	5
HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation	May 16, 2025	BenchmarkingEthics	CodeCode Available	5
CLEAR: A Dataset for Compositional Language and Elementary Acoustic Reasoning	Nov 26, 2018	Acoustic Question AnsweringQuestion Answering	CodeCode Available	5
Modularized Zero-shot VQA with Pre-trained Models	May 27, 2023	object-detectionObject Detection	CodeCode Available	5
Modulating early visual processing by language	Jul 2, 2017	Question AnsweringVisual Question Answering	CodeCode Available	5
Enhancing Interpretability and Interactivity in Robot Manipulation: A Neurosymbolic Approach	Oct 3, 2022	Referring ExpressionRobot Manipulation	CodeCode Available	5
Revisiting Video Quality Assessment from the Perspective of Generalization	Sep 23, 2024	Image Quality AssessmentVideo Quality Assessment	CodeCode Available	5
Filling the Image Information Gap for VQA: Prompting Large Language Models to Proactively Ask Questions	Nov 20, 2023	Question AnsweringVisual Question Answering	CodeCode Available	5
Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for Visual Question Answering	Apr 3, 2018	Visual Question AnsweringVisual Question Answering (VQA)	CodeCode Available	5
FigureQA: An Annotated Figure Dataset for Visual Reasoning	Oct 19, 2017	BIG-bench Machine LearningChart Question Answering	CodeCode Available	5
Improved RAMEN: Towards Domain Generalization for Visual Question Answering	Sep 6, 2021	Domain GeneralizationQuestion Answering	CodeCode Available	5
Are You Talking to a Machine? Dataset and Methods for Multilingual Image Question Answering	May 21, 2015	Question AnsweringSentence	CodeCode Available	5
Few-Shot Multimodal Explanation for Visual Question Answering	Oct 28, 2024	Explainable artificial intelligenceExplainable Artificial Intelligence (XAI)	CodeCode Available	5
Federated Document Visual Question Answering: A Pilot Study	May 10, 2024	Federated LearningQuestion Answering	CodeCode Available	5
MIRTT: Learning Multimodal Interaction Representations from Trilinear Transformers for Visual Question Answering	Nov 1, 2021	multimodal interactionMultiple-choice	CodeCode Available	5
MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding	Jan 11, 2020	Image CaptioningImage-text Retrieval	CodeCode Available	5
Factor Graph Attention	Apr 11, 2019	Graph AttentionQuestion Answering	CodeCode Available	5
Med-PMC: Medical Personalized Multi-modal Consultation with a Proactive Ask-First-Observe-Next Paradigm	Aug 16, 2024	Decision MakingMedical Visual Question Answering	CodeCode Available	5
Medical Large Vision Language Models with Multi-Image Visual Ability	May 25, 2025	Question AnsweringVisual Question Answering (VQA)	CodeCode Available	5

Show:10 25 50

← PrevPage 17 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	InternVL-C	Accuracy	81.2	—	Unverified
10	Lyrics	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified