Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 2167 papers

Title	Date	Tasks	Status	Hype
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering	Jul 25, 2017	Image CaptioningVisual Question Answering	CodeCode Available	1
Harnessing the Power of Multi-Task Pretraining for Ground-Truth Level Natural Language Explanations	Dec 8, 2022	Explanation GenerationVisual Entailment	CodeCode Available	1
Graphhopper: Multi-Hop Scene Graph Reasoning for Visual Question Answering	Jul 13, 2021	NavigateQuestion Answering	CodeCode Available	1
Graph Optimal Transport for Cross-Domain Alignment	Jun 26, 2020	Graph MatchingImage Captioning	CodeCode Available	1
Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization	Oct 7, 2016	General ClassificationImage Attribution	CodeCode Available	1
An Empirical Study of Training End-to-End Vision-and-Language Transformers	Nov 3, 2021	Cross-Modal RetrievalDecoder	CodeCode Available	1
GraghVQA: Language-Guided Graph Neural Networks for Graph-based Visual Question Answering	Apr 20, 2021	Graph Neural NetworkGraph Question Answering	CodeCode Available	1
Greedy Gradient Ensemble for Robust Visual Question Answering	Jul 27, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
HIDRO-VQA: High Dynamic Range Oracle for Video Quality Assessment	Nov 18, 2023	Video Quality AssessmentVisual Question Answering (VQA)	CodeCode Available	1
An Empirical Study of Multimodal Model Merging	Apr 28, 2023	modelRetrieval	CodeCode Available	1
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA	Sep 10, 2021	Image CaptioningQuestion Answering	CodeCode Available	1
An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling	Sep 4, 2022	Fill MaskOptical Flow Estimation	CodeCode Available	1
A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering	Nov 13, 2023	Decision MakingExplanation Generation	CodeCode Available	1
Going Full-TILT Boogie on Document Understanding with Text-Image-Layout Transformer	Feb 18, 2021	DecoderDocument Image Classification	CodeCode Available	1
3D-Aware Visual Question Answering about Parts, Poses and Occlusions	Oct 27, 2023	Question AnsweringVisual Question Answering	CodeCode Available	1
An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models	Nov 9, 2024	object-detectionObject Detection	CodeCode Available	1
Visual Grounding Methods for VQA are Working for the Wrong Reasons!	Apr 12, 2020	Question AnsweringVisual Grounding	CodeCode Available	1
A Comparison of Pre-trained Vision-and-Language Models for Multimodal Representation Learning across Medical Images and Reports	Sep 3, 2020	Image-text RetrievalMedical Visual Question Answering	CodeCode Available	1
GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering	Feb 25, 2019	Question AnsweringVisual Question Answering (VQA)	CodeCode Available	1
Hierarchical Conditional Relation Networks for Video Question Answering	Feb 25, 2020	Audio-Visual Question Answering (AVQA)Question Answering	CodeCode Available	1
Generic Attention-model Explainability for Interpreting Bi-Modal and Encoder-Decoder Transformers	Mar 29, 2021	DecoderImage Segmentation	CodeCode Available	1
Blindly Assess Quality of In-the-Wild Videos via Quality-aware Pre-training and Motion Perception	Aug 19, 2021	Action RecognitionImage Quality Assessment	CodeCode Available	1
Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator	Dec 11, 2023	Image CaptioningQuestion Answering	CodeCode Available	1
GeneAnnotator: A Semi-automatic Annotation Tool for Visual Scene Graph	Sep 6, 2021	Graph GenerationGraph Learning	CodeCode Available	1
Gemini Goes to Med School: Exploring the Capabilities of Multimodal Large Language Models on Medical Challenge Problems & Hallucinations	Feb 10, 2024	DiagnosticHallucination	CodeCode Available	1
Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs?	Jan 5, 2025	Image CaptioningImage to text	CodeCode Available	1
Analysis of Video Quality Datasets via Design of Minimalistic Video Quality Models	Jul 26, 2023	Image Quality AssessmentNo-Reference Image Quality Assessment	CodeCode Available	1
FunQA: Towards Surprising Video Comprehension	Jun 26, 2023	Question AnsweringText Generation	CodeCode Available	1
Generative Bias for Robust Visual Question Answering	Aug 1, 2022	Knowledge DistillationQuestion Answering	CodeCode Available	1
GeoLLaVA-8K: Scaling Remote-Sensing Multimodal Large Language Models to 8K Resolution	May 27, 2025	8kAvg	CodeCode Available	1
FoodieQA: A Multimodal Dataset for Fine-Grained Understanding of Chinese Food Culture	Jun 16, 2024	DiversityMultiple-choice	CodeCode Available	1
AMD-Hummingbird: Towards an Efficient Text-to-Video Model	Mar 24, 2025	Computational EfficiencyVideo Generation	CodeCode Available	1
Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules	May 11, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
A Dataset and Baselines for Visual Question Answering on Art	Aug 28, 2020	Question AnsweringQuestion Generation	CodeCode Available	1
FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding	Jul 6, 2024	Optical Character Recognition (OCR)Visual Question Answering (VQA)	CodeCode Available	1
Fine-grained Image Classification and Retrieval by Combining Visual and Locally Pooled Textual Features	Jan 14, 2020	ClassificationDiversity	CodeCode Available	1
FiLM: Visual Reasoning with a General Conditioning Layer	Sep 22, 2017	Image Retrieval with Multi-Modal QueryVisual Question Answering (VQA)	CodeCode Available	1
FloodNet: A High Resolution Aerial Imagery Dataset for Post Flood Scene Understanding	Dec 5, 2020	image-classificationImage Classification	CodeCode Available	1
Fast Prompt Alignment for Text-to-Image Generation	Dec 11, 2024	Image GenerationIn-Context Learning	CodeCode Available	1
Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training	Nov 23, 2023	Multimodal ReasoningScience Question Answering	CodeCode Available	1
FAVER: Blind Quality Prediction of Variable Frame Rate Videos	Jan 5, 2022	Cloud ComputingVideo Quality Assessment	CodeCode Available	1
2BiVQA: Double Bi-LSTM based Video Quality Assessment of UGC Videos	Aug 31, 2022	Video Quality AssessmentVisual Question Answering (VQA)	CodeCode Available	1
Attention in Reasoning: Dataset, Analysis, and Modeling	Apr 20, 2022	Question AnsweringVisual Question Answering	CodeCode Available	1
FFAA: Multimodal Large Language Model based Explainable Open-World Face Forgery Analysis Assistant	Aug 19, 2024	DescriptiveFace Swapping	CodeCode Available	1
Florence: A New Foundation Model for Computer Vision	Nov 22, 2021	Action ClassificationAction Recognition	CodeCode Available	1
Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in Visual Question Answering	Dec 14, 2021	Graph MatchingQuestion Answering	CodeCode Available	1
From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis	Jun 28, 2024	Visual Question Answering (VQA)Visual Reasoning	CodeCode Available	1
Hierarchical multimodal transformers for Multi-Page DocVQA	Dec 7, 2022	DecoderQuestion Answering	CodeCode Available	1
Expert Knowledge-Aware Image Difference Graph Representation Learning for Difference-Aware Medical Visual Question Answering	Jul 22, 2023	Graph Representation LearningLanguage Modeling	CodeCode Available	1
Attention-Based Context Aware Reasoning for Situation Recognition	Jun 1, 2020	Action RecognitionFine-grained Action Recognition	CodeCode Available	1

Show:10 25 50

← PrevPage 4 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified