Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1801–1850 of 2167 papers

Title	Date	Tasks	Status
Object Attribute Matters in Visual Question Answering	Dec 20, 2023	AttributeGraph Neural Network	CodeCode Available
AIS 2024 Challenge on Video Quality Assessment of User-Generated Content: Methods and Results	Apr 24, 2024	Video Quality AssessmentVisual Question Answering (VQA)	CodeCode Available
Weakly Supervised Relative Spatial Reasoning for Visual Question Answering	Sep 4, 2021	Question AnsweringSpatial Reasoning	CodeCode Available
EaSe: A Diagnostic Tool for VQA based on Answer Diversity	Jun 1, 2021	DiagnosticDiversity	CodeCode Available
OG-SGG: Ontology-Guided Scene Graph Generation. A Case Study in Transfer Learning for Telepresence Robotics	Feb 21, 2022	BIG-bench Machine LearningGraph Generation	CodeCode Available
CLEVR-Ref+: Diagnosing Visual Reasoning with Referring Expressions	Jan 3, 2019	DiagnosticImage Segmentation	CodeCode Available
MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks	Mar 29, 2023	Cross-Modal RetrievalDecoder	CodeCode Available
SURE-VQA: Systematic Understanding of Robustness Evaluation in Medical VQA Tasks	Nov 29, 2024	Question AnsweringVisual Question Answering	CodeCode Available
Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering	Dec 2, 2016	Visual Question AnsweringVisual Question Answering (VQA)	CodeCode Available
OmniFusion Technical Report	Apr 9, 2024	MM-VetTextVQA	CodeCode Available
M^2ConceptBase: A Fine-Grained Aligned Concept-Centric Multimodal Knowledge Base	Dec 16, 2023	cross-modal alignmentKnowledge Graphs	CodeCode Available
OmniNet: A unified architecture for multi-modal multi-task learning	Jul 17, 2019	Image CaptioningMulti-Task Learning	CodeCode Available
Dynamic Task and Weight Prioritization Curriculum Learning for Multimodal Imagery	Oct 29, 2023	Deep LearningMultimodal Deep Learning	CodeCode Available
AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss	May 5, 2021	Question AnsweringVisual Question Answering	CodeCode Available
CLEVR\_HYP: A Challenge Dataset and Baselines for Visual Question Answering with Hypothetical Actions over Images	Jun 1, 2021	Question AnsweringVisual Question Answering	CodeCode Available
LXMERT Model Compression for Visual Question Answering	Oct 23, 2023	modelModel Compression	CodeCode Available
Dynamic Memory Networks for Visual and Textual Question Answering	Mar 4, 2016	Question AnsweringVisual Question Answering	CodeCode Available
Dynamic Key-value Memory Enhanced Multi-step Graph Reasoning for Knowledge-based Visual Question Answering	Mar 6, 2022	Graph AttentionQuestion Answering	CodeCode Available
DVQA: Understanding Data Visualizations via Question Answering	Jan 24, 2018	ArticlesChart Question Answering	CodeCode Available
Enhancing Interpretability and Interactivity in Robot Manipulation: A Neurosymbolic Approach	Oct 3, 2022	Referring ExpressionRobot Manipulation	CodeCode Available
On Modality Bias in the TVQA Dataset	Dec 18, 2020	Question AnsweringVideo Question Answering	CodeCode Available
On Modality Bias Recognition and Reduction	Feb 25, 2022	Action RecognitionMulti-modal Classification	CodeCode Available
Variational Quantum Optimization with Continuous Bandits	Feb 6, 2025	Visual Question Answering (VQA)	CodeCode Available
Targeted Visual Prompting for Medical Visual Question Answering	Aug 6, 2024	Medical Visual Question AnsweringQuestion Answering	CodeCode Available
DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue	Nov 17, 2019	feature selectionQuestion Answering	CodeCode Available
CLEVR_HYP: A Challenge Dataset and Baselines for Visual Question Answering with Hypothetical Actions over Images	Apr 13, 2021	Question AnsweringVisual Question Answering	CodeCode Available
Dual Recurrent Attention Units for Visual Question Answering	Feb 1, 2018	Question AnsweringVisual Question Answering	CodeCode Available
LPF: A Language-Prior Feedback Objective Function for De-biased Visual Question Answering	May 29, 2021	Question AnsweringVisual Question Answering	CodeCode Available
Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a Class-imbalance View	Oct 30, 2020	Face Recognitionimage-classification	CodeCode Available
Dual Attention Networks for Visual Reference Resolution in Visual Dialog	Feb 25, 2019	AI AgentQuestion Answering	CodeCode Available
Are You Talking to a Machine? Dataset and Methods for Multilingual Image Question Answering	May 21, 2015	Question AnsweringSentence	CodeCode Available
A Dataset and Architecture for Visual Reasoning with a Working Memory	Mar 16, 2018	DiagnosticLogical Reasoning	CodeCode Available
CLEAR: A Dataset for Compositional Language and Elementary Acoustic Reasoning	Nov 26, 2018	Acoustic Question AnsweringQuestion Answering	CodeCode Available
Looking Beyond Visible Cues: Implicit Video Question Answering via Dual-Clue Reasoning	Jun 9, 2025	Future predictionQuestion Answering	CodeCode Available
Logical Implications for Visual Question Answering Consistency	Mar 16, 2023	Language ModelingLanguage Modelling	CodeCode Available
Locally Smoothed Neural Networks	Nov 22, 2017	Face VerificationQuestion Answering	CodeCode Available
LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models	Aug 26, 2024	Large Language ModelVideo Quality Assessment	CodeCode Available
Open-Ended Multi-Modal Relational Reasoning for Video Question Answering	Dec 1, 2020	Question AnsweringRelational Reasoning	CodeCode Available
Open-Ended Visual Question-Answering	Oct 9, 2016	Question AnsweringSentence	CodeCode Available
Synthetic Document Question Answering in Hungarian	May 29, 2025	Optical Character Recognition (OCR)Question Answering	CodeCode Available
LLM-Assisted Multi-Teacher Continual Learning for Visual Question Answering in Robotic Surgery	Feb 26, 2024	Continual LearningExemplar-Free	CodeCode Available
LLaVA-OneVision: Easy Visual Task Transfer	Aug 6, 2024	3D Question Answering (3D-QA)	CodeCode Available
Open-Set Knowledge-Based Visual Question Answering with Inference Paths	Oct 12, 2023	Knowledge GraphsMulti-class Classification	CodeCode Available
OpenViVQA: Task, Dataset, and Multimodal Fusion Models for Visual Question Answering in Vietnamese	May 7, 2023	Information RetrievalQuestion Answering	CodeCode Available
LININ: Logic Integrated Neural Inference Network for Explanatory Visual Question Answering	Dec 24, 2024	Explanatory Visual Question AnsweringMultimodal Reasoning	CodeCode Available
Systematic Generalization: What Is Required and Can It Be Learned?	Nov 30, 2018	Systematic GeneralizationVisual Question Answering (VQA)	CodeCode Available
Optimal training of variational quantum algorithms without barren plateaus	Apr 29, 2021	Quantum Machine LearningVisual Question Answering (VQA)	CodeCode Available
CAST: Cross-modal Alignment Similarity Test for Vision Language Models	Sep 17, 2024	cross-modal alignmentQuestion Answering	CodeCode Available
T2I-FineEval: Fine-Grained Compositional Metric for Text-to-Image Evaluation	Mar 14, 2025	AttributeQuestion Answering	CodeCode Available
Dual Attention Networks for Multimodal Reasoning and Matching	Nov 2, 2016	Collaborative InferenceImage-text matching	CodeCode Available

Show:10 25 50

← PrevPage 37 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	InternVL-C	Accuracy	81.2	—	Unverified
10	Lyrics	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified