Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 2167 papers

Title	Date	Tasks	Status	Hype	Score
Learning to Discretely Compose Reasoning Module Networks for Video Captioning	Jul 17, 2020	DecoderQuestion Answering	CodeCode Available	1	5
Light-VQA: A Multi-Dimensional Quality Assessment Model for Low-Light Video Enhancement	May 16, 2023	Video EnhancementVideo Quality Assessment	CodeCode Available	1	5
Don't Take the Easy Way Out: Ensemble Based Methods for Avoiding Known Dataset Biases	Sep 9, 2019	Natural Language InferenceQuestion Answering	CodeCode Available	1	5
Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning	Mar 20, 2017	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1	5
Does Vision-and-Language Pretraining Improve Lexical Grounding?	Sep 21, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1	5
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation	Jul 16, 2021	Cross-Modal RetrievalGrounded language learning	CodeCode Available	1	5
FiLM: Visual Reasoning with a General Conditioning Layer	Sep 22, 2017	Image Retrieval with Multi-Modal QueryVisual Question Answering (VQA)	CodeCode Available	1	5
Combo of Thinking and Observing for Outside-Knowledge VQA	May 10, 2023	DecoderQuestion Answering	CodeCode Available	1	5
LIVE: Learnable In-Context Vector for Visual Question Answering	Jun 19, 2024	In-Context LearningQuestion Answering	CodeCode Available	1	5
Learning Situation Hyper-Graphs for Video Question Answering	Apr 18, 2023	DecoderQuestion Answering	CodeCode Available	1	5
DocFormerv2: Local Features for Document Understanding	Jun 2, 2023	Decoderdocument understanding	CodeCode Available	1	5
Enhancing Vision-Language Pre-Training with Jointly Learned Questioner and Dense Captioner	May 19, 2023	Dense CaptioningImage Captioning	CodeCode Available	1	5
LaTr: Layout-Aware Transformer for Scene-Text VQA	Dec 23, 2021	Optical Character Recognition (OCR)Question Answering	CodeCode Available	1	5
FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding	Jul 6, 2024	Optical Character Recognition (OCR)Visual Question Answering (VQA)	CodeCode Available	1	5
FoodieQA: A Multimodal Dataset for Fine-Grained Understanding of Chinese Food Culture	Jun 16, 2024	DiversityMultiple-choice	CodeCode Available	1	5
Distilled Dual-Encoder Model for Vision-Language Understanding	Dec 16, 2021	Image to textmodel	CodeCode Available	1	5
OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge	May 31, 2019	object-detectionObject Detection	CodeCode Available	1	5
DocVQA: A Dataset for VQA on Document Images	Jul 1, 2020	Question AnsweringReading Comprehension	CodeCode Available	1	5
Layout and Task Aware Instruction Prompt for Zero-shot Document Image Question Answering	Jun 1, 2023	Optical Character Recognition (OCR)Question Answering	CodeCode Available	1	5
From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis	Jun 28, 2024	Visual Question Answering (VQA)Visual Reasoning	CodeCode Available	1	5
Learning to Answer Questions in Dynamic Audio-Visual Scenarios	Mar 26, 2022	audio-visual learningAudio-visual Question Answering	CodeCode Available	1	5
Light-VQA+: A Video Quality Assessment Model for Exposure Correction with Vision-Language Guidance	May 6, 2024	Exposure CorrectionVideo Enhancement	CodeCode Available	1	5
Maintaining Reasoning Consistency in Compositional Visual Question Answering	Jan 1, 2022	Question AnsweringVisual Question Answering	CodeCode Available	1	5
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections	May 24, 2022	Computational Efficiencycross-modal alignment	CodeCode Available	1	5
ConceptBert: Concept-Aware Representation for Visual Question Answering	Nov 1, 2020	Common Sense ReasoningQuestion Answering	CodeCode Available	1	5
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts	Feb 17, 2021	Caption GenerationDiversity	CodeCode Available	1	5
Language Prior Is Not the Only Shortcut: A Benchmark for Shortcut Learning in VQA	Oct 10, 2022	Question AnsweringVisual Question Answering	CodeCode Available	1	5
Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs?	Jan 5, 2025	Image CaptioningImage to text	CodeCode Available	1	5
Language-Informed Visual Concept Learning	Dec 6, 2023	DisentanglementNovel Concepts	CodeCode Available	1	5
Content-Rich AIGC Video Quality Assessment via Intricate Text Alignment and Motion-Aware Consistency	Feb 6, 2025	Video GenerationVideo Quality Assessment	CodeCode Available	1	5
Multi-Agent VQA: Exploring Multi-Agent Foundation Models in Zero-Shot Visual Question Answering	Mar 21, 2024	object-detectionObject Detection	CodeCode Available	1	5
ConTEXTual Net: A Multimodal Vision-Language Model for Segmentation of Pneumothorax	Mar 2, 2023	DescriptiveImage Captioning	CodeCode Available	1	5
LaPA: Latent Prompt Assist Model For Medical Visual Question Answering	Apr 19, 2024	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	1	5
Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?	Feb 23, 2023	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1	5
Contrast and Classify: Training Robust VQA Models	Oct 13, 2020	Contrastive LearningData Augmentation	CodeCode Available	1	5
2BiVQA: Double Bi-LSTM based Video Quality Assessment of UGC Videos	Aug 31, 2022	Video Quality AssessmentVisual Question Answering (VQA)	CodeCode Available	1	5
GeoLLaVA-8K: Scaling Remote-Sensing Multimodal Large Language Models to 8K Resolution	May 27, 2025	8kAvg	CodeCode Available	1	5
A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge	Jun 3, 2022	Question AnsweringVisual Question Answering	CodeCode Available	1	5
Language Guided Visual Question Answering: Elevate Your Multimodal Language Model Using Knowledge-Enriched Prompts	Oct 31, 2023	Image CaptioningLanguage Modeling	CodeCode Available	1	5
Multimodal Inverse Cloze Task for Knowledge-based Visual Question Answering	Jan 11, 2023	Question AnsweringReading Comprehension	CodeCode Available	1	5
Large Language Models are Temporal and Causal Reasoners for Video Question Answering	Oct 24, 2023	Natural Language UnderstandingQuestion Answering	CodeCode Available	1	5
Can I Trust Your Answer? Visually Grounded Video Question Answering	Sep 4, 2023	Grounded Video Question AnsweringQuestion Answering	CodeCode Available	1	5
Counterfactual Samples Synthesizing and Training for Robust Visual Question Answering	Oct 3, 2021	counterfactualDiagnostic	CodeCode Available	1	5
Counterfactual Samples Synthesizing for Robust Visual Question Answering	Mar 14, 2020	counterfactualQuestion Answering	CodeCode Available	1	5
Label-Descriptive Patterns and Their Application to Characterizing Classification Errors	Oct 18, 2021	Descriptivenamed-entity-recognition	CodeCode Available	1	5
Counterfactual VQA: A Cause-Effect Look at Language Bias	Jun 8, 2020	Causal Inferencecounterfactual	CodeCode Available	1	5
GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering	Feb 25, 2019	Question AnsweringVisual Question Answering (VQA)	CodeCode Available	1	5
Multi-modal Understanding and Generation for Medical Images and Text via Vision-Language Pre-Training	May 24, 2021	Image CaptioningMedical Visual Question Answering	CodeCode Available	1	5
Detecting Hate Speech in Multi-modal Memes	Dec 29, 2020	Binary ClassificationHate Speech Detection	CodeCode Available	1	5
DeVLBert: Learning Deconfounded Visio-Linguistic Representations	Aug 16, 2020	Image RetrievalQuestion Answering	CodeCode Available	1	5

Show:10 25 50

← PrevPage 8 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	InternVL-C	Accuracy	81.2	—	Unverified
10	Lyrics	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified