Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1801–1850 of 2167 papers

Title	Date	Tasks	Status	Hype
Ludwig: a type-based declarative deep learning toolbox	Sep 17, 2019	DecoderDeep Learning	CodeCode Available	3
Inverse Visual Question Answering with Multi-Level Attentions	Sep 17, 2019	Question AnsweringVisual Question Answering	—Unverified	0
Sunny and Dark Outside?! Improving Answer Consistency in VQA through Entailed Question Generation	Sep 10, 2019	Common Sense ReasoningData Augmentation	—Unverified	0
Don't Take the Easy Way Out: Ensemble Based Methods for Avoiding Known Dataset Biases	Sep 9, 2019	Natural Language InferenceQuestion Answering	CodeCode Available	1
Decoupled Box Proposal and Featurization with Ultrafine-Grained Semantic Labels Improve Image Captioning and Visual Question Answering	Sep 4, 2019	Image CaptioningObject	—Unverified	0
PlotQA: Reasoning over Scientific Plots	Sep 3, 2019	Chart Question AnsweringQuestion Answering	—Unverified	0
Adversarial Representation Learning for Text-to-Image Matching	Aug 28, 2019	Image CaptioningLanguage Modeling	—Unverified	0
Visual Question Answering using Deep Learning: A Survey and Performance Analysis	Aug 27, 2019	Common Sense ReasoningQuestion Answering	CodeCode Available	0
VL-BERT: Pre-training of Generic Visual-Linguistic Representations	Aug 22, 2019	Image-text matchingLanguage Modelling	CodeCode Available	1
LXMERT: Learning Cross-Modality Encoder Representations from Transformers	Aug 20, 2019	Language ModelingLanguage Modelling	CodeCode Available	1
Language Features Matter: Effective Language Representations for Vision-Language Tasks	Aug 17, 2019	Image CaptioningLanguage Modelling	—Unverified	0
What is needed for simple spatial language capabilities in VQA?	Aug 17, 2019	DiagnosticQuestion Answering	—Unverified	0
U-CAM: Visual Explanation using Uncertainty based Class Activation Maps	Aug 17, 2019	Deep LearningProbabilistic Deep Learning	—Unverified	0
VideoNavQA: Bridging the Gap between Visual and Embodied Question Answering	Aug 14, 2019	Embodied Question AnsweringQuestion Answering	CodeCode Available	1
Fusion of Detected Objects in Text for Visual Question Answering	Aug 14, 2019	Question AnsweringVisual Commonsense Reasoning	—Unverified	0
Reactive Multi-Stage Feature Fusion for Multimodal Dialogue Modeling	Aug 14, 2019	Question AnsweringScene-Aware Dialogue	—Unverified	0
Why Does a Visual Question Have Different Answers?	Aug 12, 2019	Question AnsweringVisual Question Answering	—Unverified	0
Multimodal Unified Attention Networks for Vision-and-Language Interactions	Aug 12, 2019	Question AnsweringVisual Grounding	—Unverified	0
Multi-modality Latent Interaction Network for Visual Question Answering	Aug 10, 2019	Language ModelingLanguage Modelling	—Unverified	0
Question-Agnostic Attention for Visual Question Answering	Aug 9, 2019	Question AnsweringVisual Question Answering	—Unverified	0
VisualBERT: A Simple and Performant Baseline for Vision and Language	Aug 9, 2019	Language ModelingLanguage Modelling	CodeCode Available	1
CRIC: A VQA Dataset for Compositional Reasoning on Vision and Commonsense	Aug 8, 2019	Question AnsweringVisual Question Answering (VQA)	—Unverified	0
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks	Aug 6, 2019	Image RetrievalQuestion Answering	CodeCode Available	1
Answering Questions about Data Visualizations using Efficient Bimodal Fusion	Aug 5, 2019	Chart Question AnsweringOptical Character Recognition	CodeCode Available	0
The Meaning of ``Most'' for Visual Question Answering Models	Aug 1, 2019	Question AnsweringVisual Question Answering	—Unverified	0
An Empirical Study of Batch Normalization and Group Normalization in Conditional Computation	Jul 31, 2019	Conditional Image GenerationFew-Shot Learning	—Unverified	0
LEAF-QA: Locate, Encode & Attend for Figure Question Answering	Jul 30, 2019	Chart Question AnsweringQuestion Answering	—Unverified	0
An Empirical Study on Leveraging Scene Graphs for Visual Question Answering	Jul 28, 2019	Knowledge GraphsQuestion Answering	—Unverified	0
Bilinear Graph Networks for Visual Question Answering	Jul 23, 2019	Question AnsweringVisual Question Answering	—Unverified	0
KVQA: Knowledge-Aware Visual Question Answering	Jul 17, 2019	Knowledge GraphsQuestion Answering	—Unverified	0
OmniNet: A unified architecture for multi-modal multi-task learning	Jul 17, 2019	Image CaptioningMulti-Task Learning	CodeCode Available	0
2nd Place Solution to the GQA Challenge 2019	Jul 16, 2019	Question AnsweringVisual Question Answering	—Unverified	0
Assessing Visual Quality of Omnidirectional Videos	Jul 14, 2019	Visual Question Answering (VQA)	—Unverified	0
Neural Reasoning, Fast and Slow, for Video Question Answering	Jul 10, 2019	Natural QuestionsQuestion Answering	—Unverified	0
Learning by Abstraction: The Neural State Machine	Jul 9, 2019	Visual Question Answering (VQA)Visual Reasoning	CodeCode Available	0
Are Red Roses Red? Evaluating Consistency of Question-Answering Models	Jul 1, 2019	Question Answeringvalid	CodeCode Available	0
Multi-grained Attention with Object-level Grounding for Visual Question Answering	Jul 1, 2019	ObjectQuestion Answering	—Unverified	0
ICDAR 2019 Competition on Scene Text Visual Question Answering	Jun 30, 2019	Question AnsweringVisual Question Answering	—Unverified	0
Deep Modular Co-Attention Networks for Visual Question Answering	Jun 25, 2019	Question AnsweringVisual Question Answering	CodeCode Available	0
RUBi: Reducing Unimodal Biases in Visual Question Answering	Jun 24, 2019	Question AnsweringVisual Question Answering	CodeCode Available	0
Integrating Knowledge and Reasoning in Image Understanding	Jun 24, 2019	Object RecognitionQuestion Answering	—Unverified	0
Adversarial Multimodal Network for Movie Question Answering	Jun 24, 2019	Question AnsweringVideo Question Answering	—Unverified	0
Investigating Biases in Textual Entailment Datasets	Jun 23, 2019	BIG-bench Machine LearningNatural Language Inference	—Unverified	0
Two-Level Approach for No-Reference Consumer Video Quality Assessment	Jun 20, 2019	Video Quality AssessmentVisual Question Answering (VQA)	CodeCode Available	0
Adversarial Regularization for Visual Question Answering: Strengths, Shortcomings, and Side Effects	Jun 20, 2019	Question AnsweringVisual Question Answering	—Unverified	0
Improving Visual Question Answering by Referring to Generated Paragraph Captions	Jun 14, 2019	DecoderImage Captioning	—Unverified	0
Mimic and Fool: A Task Agnostic Adversarial Attack	Jun 11, 2019	Adversarial AttackImage Captioning	CodeCode Available	0
Psycholinguistics meets Continual Learning: Measuring Catastrophic Forgetting in Visual Question Answering	Jun 10, 2019	Continual LearningQuestion Answering	—Unverified	0
ActivityNet-QA: A Dataset for Understanding Complex Web Videos via Question Answering	Jun 6, 2019	Question AnsweringVideo Question Answering	CodeCode Available	0
Generating Question Relevant Captions to Aid Visual Question Answering	Jun 3, 2019	General KnowledgeImage Captioning	—Unverified	0

Show:10 25 50

← PrevPage 37 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	InternVL-C	Accuracy	81.2	—	Unverified
10	Lyrics	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified