Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2001–2050 of 2167 papers

Title	Date	Tasks	Status
Deep Modular Co-Attention Networks for Visual Question Answering	Jun 25, 2019	Question AnsweringVisual Question Answering	CodeCode Available
Declarative Knowledge Distillation from Large Language Models for Visual Question Answering Datasets	Oct 12, 2024	Knowledge DistillationQuestion Answering	CodeCode Available
Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering	May 21, 2024	DiversityInformation Retrieval	CodeCode Available
Robustness through Data Augmentation Loss Consistency	Oct 21, 2021	Multi-domain Dialogue State TrackingVisual Question Answering	CodeCode Available
Answer Questions with Right Image Regions: A Visual Attention Regularization Approach	Feb 3, 2021	Question AnsweringVisual Grounding	CodeCode Available
Recommending Themes for Ad Creative Design via Visual-Linguistic Representations	Jan 20, 2020	Question AnsweringRecommendation Systems	CodeCode Available
D3: Data Diversity Design for Systematic Generalization in Visual Question Answering	Sep 15, 2023	DiversityQuestion Answering	CodeCode Available
Recursive Visual Attention in Visual Dialog	Dec 6, 2018	Question AnsweringVisual Dialog	CodeCode Available
II-MMR: Identifying and Improving Multi-modal Multi-hop Reasoning in Visual Question Answering	Feb 16, 2024	Question AnsweringTriplet	CodeCode Available
ReDiT: Re‑evaluating large visual question answering model confidence by defining input scenario Difficulty and applying Temperature mapping	Jan 6, 2025	Question AnsweringVisual Question Answering	CodeCode Available
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data	Oct 1, 2024	Code GenerationLogical Reasoning	CodeCode Available
Towards Knowledge-Augmented Visual Question Answering	Dec 1, 2020	General KnowledgeGraph Attention	CodeCode Available
https://arxiv.org/abs/2407.00634	Jul 2, 2024	Video CaptioningVideo Description	CodeCode Available
Towards Language-guided Visual Recognition via Dynamic Convolutions	Oct 17, 2021	Question AnsweringReferring Expression	CodeCode Available
Answering Questions about Data Visualizations using Efficient Bimodal Fusion	Aug 5, 2019	Chart Question AnsweringOptical Character Recognition	CodeCode Available
Relation-Aware Graph Attention Network for Visual Question Answering	Mar 29, 2019	Graph AttentionImplicit Relations	CodeCode Available
HRIBench: Benchmarking Vision-Language Models for Real-Time Human Perception in Human-Robot Interaction	Jun 25, 2025	BenchmarkingPerson Identification	CodeCode Available
How to Determine the Preferred Image Distribution of a Black-Box Vision-Language Model?	Sep 3, 2024	In-Context LearningLanguage Modeling	CodeCode Available
How Modular Should Neural Module Networks Be for Systematic Generalization?	Jun 15, 2021	Question AnsweringSystematic Generalization	CodeCode Available
High-Order Attention Models for Visual Question Answering	Nov 12, 2017	Question AnsweringVisual Question Answering	CodeCode Available
REMIND Your Neural Network to Prevent Catastrophic Forgetting	Oct 6, 2019	QuantizationQuestion Answering	CodeCode Available
Hierarchical Deep Multi-modal Network for Medical Visual Question Answering	Sep 27, 2020	DescriptiveMedical Visual Question Answering	CodeCode Available
Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering	Apr 8, 2019	Question AnsweringVideo Question Answering	CodeCode Available
cViL: Cross-Lingual Training of Vision-Language Models using Knowledge Distillation	Jun 7, 2022	Knowledge DistillationQuestion Answering	CodeCode Available
Cross-Modal Transferable Image-to-Video Attack on Video Quality Metrics	Jan 14, 2025	Video Quality AssessmentVisual Question Answering (VQA)	CodeCode Available
Automatic Generation of Contrast Sets from Scene Graphs: Probing the Compositional Consistency of GQA	Mar 17, 2021	Question AnsweringRelational Reasoning	CodeCode Available
Cross-Modal Contrastive Learning for Robust Reasoning in VQA	Nov 21, 2022	Contrastive LearningQuestion Answering	CodeCode Available
Cross-Lingual Text-Rich Visual Comprehension: An Information Theory Perspective	Dec 23, 2024	Question AnsweringVisual Question Answering	CodeCode Available
VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning	Jul 17, 2025	Language ModelingLanguage Modelling	CodeCode Available
Help Me Identify: Is an LLM+VQA System All We Need to Identify Visual Concepts?	Oct 17, 2024	AllLanguage Modeling	CodeCode Available
VL-InterpreT: An Interactive Visualization Tool for Interpreting Vision-Language Transformers	Mar 30, 2022	Question AnsweringVisual Commonsense Reasoning	CodeCode Available
CRIPP-VQA: Counterfactual Reasoning about Implicit Physical Properties via Video Question Answering	Nov 7, 2022	Add - POAdd - PQ	CodeCode Available
AutoBench-V: Can Large Vision-Language Models Benchmark Themselves?	Oct 28, 2024	BenchmarkingQuestion Answering	CodeCode Available
HaVQA: A Dataset for Visual Question Answering and Multimodal Research in Hausa Language	May 28, 2023	Machine TranslationMultimodal Machine Translation	CodeCode Available
An Improved Attention for Visual Question Answering	Nov 4, 2020	DecoderQuestion Answering	CodeCode Available
Towards Visual Question Answering on Pathology Images	Aug 1, 2021	Decision MakingQuestion Answering	CodeCode Available
REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory	Dec 10, 2022	Image CaptioningLanguage Modeling	CodeCode Available
HALLUCINOGEN: A Benchmark for Evaluating Object Hallucination in Large Visual-Language Models	Dec 29, 2024	HallucinationObject	CodeCode Available
Counting Everyday Objects in Everyday Scenes	Apr 12, 2016	ObjectObject Counting	CodeCode Available
MoVie: Revisiting Modulated Convolutions for Visual Counting and Beyond	Apr 24, 2020	Object CountingQuestion Answering	CodeCode Available
A Unified Hallucination Mitigation Framework for Large Vision-Language Models	Sep 24, 2024	HallucinationQuestion Answering	CodeCode Available
Revisiting Video Quality Assessment from the Perspective of Generalization	Sep 23, 2024	Image Quality AssessmentVideo Quality Assessment	CodeCode Available
Revisiting Visual Question Answering Baselines	Jun 27, 2016	Binary ClassificationMultiple-choice	CodeCode Available
Hallucination Benchmark in Medical Visual Question Answering	Jan 11, 2024	HallucinationMedical Visual Question Answering	CodeCode Available
HalLoc: Token-level Localization of Hallucinations for Vision Language Models	Jun 12, 2025	HallucinationImage Captioning	CodeCode Available
Copy-Move Forgery Detection and Question Answering for Remote Sensing Image	Dec 3, 2024	Question AnsweringVisual Question Answering	CodeCode Available
REXUP: I REason, I EXtract, I UPdate with Structured Compositional Reasoning for Visual Question Answering	Jul 27, 2020	Question AnsweringVisual Question Answering	CodeCode Available
Augmenting Visual Question Answering with Semantic Frame Information in a Multitask Learning Approach	Jan 31, 2020	Question AnsweringVisual Question Answering	CodeCode Available
Right this way: Can VLMs Guide Us to See More to Answer Questions?	Nov 1, 2024	Question AnsweringVisual Question Answering	CodeCode Available
Visual Choice of Plausible Alternatives: An Evaluation of Image-based Commonsense Causal Reasoning	May 1, 2018	Commonsense Causal ReasoningImage Captioning	CodeCode Available

Show:10 25 50

← PrevPage 41 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	InternVL-C	Accuracy	81.2	—	Unverified
10	Lyrics	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified