Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–450 of 2167 papers

Title	Date	Tasks	Status	Hype
Multi-modal Understanding and Generation for Medical Images and Text via Vision-Language Pre-Training	May 24, 2021	Image CaptioningMedical Visual Question Answering	CodeCode Available	1
CRAFT: A Benchmark for Causal Reasoning About Forces and inTeractions	Dec 8, 2020	counterfactualDescriptive	CodeCode Available	1
HIDRO-VQA: High Dynamic Range Oracle for Video Quality Assessment	Nov 18, 2023	Video Quality AssessmentVisual Question Answering (VQA)	CodeCode Available	1
Natural Language Rationales with Full-Stack Visual Reasoning: From Pixels to Semantic Frames to Commonsense Graphs	Oct 15, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
A Dataset and Baselines for Visual Question Answering on Art	Aug 28, 2020	Question AnsweringQuestion Generation	CodeCode Available	1
CrossGET: Cross-Guided Ensemble of Tokens for Accelerating Vision-Language Transformers	May 27, 2023	Image CaptioningImage Retrieval	CodeCode Available	1
How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for Vision LLMs	Nov 27, 2023	Adversarial RobustnessVisual Question Answering (VQA)	CodeCode Available	1
AMD-Hummingbird: Towards an Efficient Text-to-Video Model	Mar 24, 2025	Computational EfficiencyVideo Generation	CodeCode Available	1
GRIT: General Robust Image Task Benchmark	Apr 28, 2022	Instance SegmentationKeypoint Detection	CodeCode Available	1
Notes-guided MLLM Reasoning: Enhancing MLLM with Knowledge and Visual Notes for Visual Question Answering	Jan 1, 2025	Large Language ModelMultimodal Large Language Model	CodeCode Available	1
HAAR: Text-Conditioned Generative Model of 3D Strand-based Human Hairstyles	Dec 18, 2023	Question AnsweringVisual Question Answering	CodeCode Available	1
Detecting Hate Speech in Multi-modal Memes	Dec 29, 2020	Binary ClassificationHate Speech Detection	CodeCode Available	1
OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge	May 31, 2019	object-detectionObject Detection	CodeCode Available	1
NuScenes-MQA: Integrated Evaluation of Captions and QA for Autonomous Driving Datasets using Markup Annotations	Dec 11, 2023	Autonomous DrivingDescriptive	CodeCode Available	1
DeVLBert: Learning Deconfounded Visio-Linguistic Representations	Aug 16, 2020	Image RetrievalQuestion Answering	CodeCode Available	1
HallE-Control: Controlling Object Hallucination in Large Multimodal Models	Oct 3, 2023	AttributeDecoder	CodeCode Available	1
Ontology-guided Semantic Composition for Zero-Shot Learning	Jun 30, 2020	image-classificationImage Classification	CodeCode Available	1
Open3DVQA: A Benchmark for Comprehensive Spatial Reasoning with Multimodal Large Language Model in Open Space	Mar 14, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
How Much Can CLIP Benefit Vision-and-Language Tasks?	Jul 13, 2021	Question AnsweringVision and Language Navigation	CodeCode Available	1
In Defense of Grid Features for Visual Question Answering	Jan 10, 2020	Image CaptioningQuestion Answering	CodeCode Available	1
Language Prior Is Not the Only Shortcut: A Benchmark for Shortcut Learning in VQA	Oct 10, 2022	Question AnsweringVisual Question Answering	CodeCode Available	1
GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering	Feb 25, 2019	Question AnsweringVisual Question Answering (VQA)	CodeCode Available	1
Overcoming Language Priors with Self-supervised Learning for Visual Question Answering	Dec 17, 2020	Question AnsweringSelf-Supervised Learning	CodeCode Available	1
Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization	Oct 7, 2016	General ClassificationImage Attribution	CodeCode Available	1
Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?	Feb 23, 2023	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1
A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge	Jun 3, 2022	Question AnsweringVisual Question Answering	CodeCode Available	1
GraghVQA: Language-Guided Graph Neural Networks for Graph-based Visual Question Answering	Apr 20, 2021	Graph Neural NetworkGraph Question Answering	CodeCode Available	1
Pano-AVQA: Grounded Audio-Visual Question Answering on 360^ Videos	Oct 11, 2021	Audio-visual Question AnsweringQuestion Answering	CodeCode Available	1
ParlAI: A Dialog Research Software Platform	May 18, 2017	reinforcement-learningReinforcement Learning	CodeCode Available	1
Passage Retrieval for Outside-Knowledge Visual Question Answering	May 9, 2021	Image CaptioningObject	CodeCode Available	1
Can I Trust Your Answer? Visually Grounded Video Question Answering	Sep 4, 2023	Grounded Video Question AnsweringQuestion Answering	CodeCode Available	1
GeoLLaVA-8K: Scaling Remote-Sensing Multimodal Large Language Models to 8K Resolution	May 27, 2025	8kAvg	CodeCode Available	1
PEVL: Position-enhanced Pre-training and Prompt Tuning for Vision-language Models	May 23, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback	Oct 8, 2024	MathSequential Decision Making	CodeCode Available	1
Going Full-TILT Boogie on Document Understanding with Text-Image-Layout Transformer	Feb 18, 2021	DecoderDocument Image Classification	CodeCode Available	1
End-to-end Document Recognition and Understanding with Dessurt	Mar 30, 2022	document understandingVisual Question Answering (VQA)	CodeCode Available	1
Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers	Apr 2, 2020	Image-text matchingImage-text Retrieval	CodeCode Available	1
Graphhopper: Multi-Hop Scene Graph Reasoning for Visual Question Answering	Jul 13, 2021	NavigateQuestion Answering	CodeCode Available	1
Calibrating Concepts and Operations: Towards Symbolic Reasoning on Real Images	Oct 1, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
Generative Bias for Robust Visual Question Answering	Aug 1, 2022	Knowledge DistillationQuestion Answering	CodeCode Available	1
Probing Image-Language Transformers for Verb Understanding	Jun 16, 2021	Image RetrievalQuestion Answering	CodeCode Available	1
Debiased Visual Question Answering from Feature and Sample Perspectives	Dec 1, 2021	Bias DetectionQuestion Answering	CodeCode Available	1
Debiasing Multimodal Models via Causal Information Minimization	Nov 28, 2023	Visual Question Answering (VQA)	CodeCode Available	1
Declaration-based Prompt Tuning for Visual Question Answering	May 5, 2022	Image-text matchingLanguage Modeling	CodeCode Available	1
GeneAnnotator: A Semi-automatic Annotation Tool for Visual Scene Graph	Sep 6, 2021	Graph GenerationGraph Learning	CodeCode Available	1
Answer Mining from a Pool of Images: Towards Retrieval-Based Visual Question Answering	Jun 29, 2023	Answer GenerationQuestion Answering	CodeCode Available	1
Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs?	Jan 5, 2025	Image CaptioningImage to text	CodeCode Available	1
Generic Attention-model Explainability for Interpreting Bi-Modal and Encoder-Decoder Transformers	Mar 29, 2021	DecoderImage Segmentation	CodeCode Available	1
Decoupled Seg Tokens Make Stronger Reasoning Video Segmenter and Grounder	Jun 28, 2025	Image SegmentationLarge Language Model	CodeCode Available	1
From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis	Jun 28, 2024	Visual Question Answering (VQA)Visual Reasoning	CodeCode Available	1

Show:10 25 50

← PrevPage 9 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified