Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1551–1600 of 2167 papers

Title	Date	Tasks	Status
Weakly Supervised Relative Spatial Reasoning for Visual Question Answering	Sep 4, 2021	Question AnsweringSpatial Reasoning	CodeCode Available
A review of Quantum Neural Networks: Methods, Models, Dilemma	Sep 4, 2021	Computational EfficiencyVisual Question Answering (VQA)	—Unverified
QACE: Asking Questions to Evaluate an Image Caption	Aug 28, 2021	Question AnsweringVisual Question Answering (VQA)	CodeCode Available
On the Significance of Question Encoder Sequence Model in the Out-of-Distribution Performance in Visual Question Answering	Aug 28, 2021	Graph AttentionQuestion Answering	—Unverified
Auto-Parsing Network for Image Captioning and Visual Question Answering	Aug 24, 2021	Image CaptioningQuestion Answering	—Unverified
EKTVQA: Generalized use of External Knowledge to empower Scene Text in Text-VQA	Aug 22, 2021	Open-Ended Question AnsweringOptical Character Recognition (OCR)	—Unverified
StarVQA: Space-Time Attention for Video Quality Assessment	Aug 22, 2021	Video Quality AssessmentVisual Question Answering (VQA)	CodeCode Available
Localize, Group, and Select: Boosting Text-VQA by Scene Text Modeling	Aug 20, 2021	Data AblationOptical Character Recognition	—Unverified
VALSE: A Task-Independent Benchmark for Vision and Language Models centered on Linguistic Phenomena	Aug 17, 2021	Question AnsweringVisual Question Answering	—Unverified
BERTHop: An Effective Vision-and-Language Model for Chest X-ray Disease Diagnosis	Aug 10, 2021	Language ModelingLanguage Modelling	CodeCode Available
Towards Visual Question Answering on Pathology Images	Aug 1, 2021	Decision MakingQuestion Answering	CodeCode Available
LRRA:A Transparent Neural-Symbolic Reasoning Framework for Real-World Visual Question Answering	Aug 1, 2021	Question AnsweringVisual Question Answering	—Unverified
利用图像描述与知识图谱增强表示的视觉问答(Exploiting Image Captions and External Knowledge as Representation Enhancement for Visual Question Answering)	Aug 1, 2021	Image CaptioningQuestion Answering	—Unverified
In Factuality: Efficient Integration of Relevant Facts for Visual Question Answering	Aug 1, 2021	Question AnsweringVisual Question Answering	—Unverified
X-GGM: Graph Generative Modeling for Out-of-Distribution Generalization in Visual Question Answering	Jul 24, 2021	AttributeOut-of-Distribution Generalization	CodeCode Available
MuVAM: A Multi-View Attention-based Model for Medical Visual Question Answering	Jul 7, 2021	Medical Visual Question AnsweringMissing Labels	—Unverified
Cognitive Visual Commonsense Reasoning Using Dynamic Working Memory	Jul 4, 2021	Question AnsweringScene Understanding	CodeCode Available
Adventurer's Treasure Hunt: A Transparent System for Visually Grounded Compositional Visual Question Answering based on Scene Graphs	Jun 28, 2021	Question AnsweringTask 2	—Unverified
Multimodal Few-Shot Learning with Frozen Language Models	Jun 25, 2021	Few-Shot LearningLanguage Modeling	—Unverified
A Picture May Be Worth a Hundred Words for Visual Question Answering	Jun 25, 2021	Data AugmentationDescriptive	—Unverified
Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training	Jun 25, 2021	Image-text RetrievalQuestion Answering	—Unverified
A Transformer-based Cross-modal Fusion Model with Adversarial Training for VQA Challenge 2021	Jun 24, 2021	Visual Question Answering (VQA)	—Unverified
FOVQA: Blind Foveated Video Quality Assessment	Jun 24, 2021	Video CompressionVideo Quality Assessment	—Unverified
VQA-Aid: Visual Question Answering for Post-Disaster Damage Assessment and Analysis	Jun 19, 2021	Question AnsweringVisual Question Answering	—Unverified
How Modular Should Neural Module Networks Be for Systematic Generalization?	Jun 15, 2021	Question AnsweringSystematic Generalization	CodeCode Available
Assessment of Subjective and Objective Quality of Live Streaming Sports Videos	Jun 15, 2021	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified
NAAQA: A Neural Architecture for Acoustic Question Answering	Jun 11, 2021	Acoustic Question AnsweringQuestion Answering	CodeCode Available
Supervising the Transfer of Reasoning Patterns in VQA	Jun 10, 2021	PAC learningTransfer Learning	—Unverified
Bayesian Attention Belief Networks	Jun 9, 2021	DecoderMachine Translation	—Unverified
Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions	Jun 8, 2021	Question AnsweringVisual Question Answering	—Unverified
PAM: Understanding Product Images in Cross Product Category Attribute Extraction	Jun 8, 2021	AttributeAttribute Extraction	—Unverified
Human-Adversarial Visual Question Answering	Jun 4, 2021	Question AnsweringVisual Question Answering	—Unverified
Grounding Complex Navigational Instructions Using Scene Graphs	Jun 3, 2021	Question Answeringreinforcement-learning	—Unverified
CLEVR\_HYP: A Challenge Dataset and Baselines for Visual Question Answering with Hypothetical Actions over Images	Jun 1, 2021	Question AnsweringVisual Question Answering	CodeCode Available
Adversarial VQA: A New Benchmark for Evaluating the Robustness of VQA Models	Jun 1, 2021	Data AugmentationQuestion Answering	—Unverified
Learning to Select Question-Relevant Relations for Visual Question Answering	Jun 1, 2021	Graph AttentionQuestion Answering	—Unverified
MiniVQA - A resource to build your tailored VQA competition	Jun 1, 2021	BIG-bench Machine LearningVisual Question Answering (VQA)	—Unverified
Semantic Aligned Multi-modal Transformer for Vision-LanguageUnderstanding: A Preliminary Study on Visual QA	Jun 1, 2021	Question AnsweringVisual Question Answering	—Unverified
MIMOQA: Multimodal Input Multimodal Output Question Answering	Jun 1, 2021	Question AnsweringVisual Question Answering	—Unverified
EaSe: A Diagnostic Tool for VQA based on Answer Diversity	Jun 1, 2021	DiagnosticDiversity	CodeCode Available
LPF: A Language-Prior Feedback Objective Function for De-biased Visual Question Answering	May 29, 2021	Question AnsweringVisual Question Answering	CodeCode Available
StructuralLM: Structural Pre-training for Form Understanding	May 24, 2021	document-image-classificationDocument Image Classification	—Unverified
Probing Inter-modality: Visual Parsing with Self-Attention for Vision-and-Language Pre-training	May 21, 2021	Question AnsweringRelation	—Unverified
Survey of Visual-Semantic Embedding Methods for Zero-Shot Image Retrieval	May 16, 2021	Graph GenerationImage Captioning	—Unverified
Show Why the Answer is Correct! Towards Explainable AI using Compositional Temporal Attention	May 15, 2021	Question AnsweringVisual Question Answering	—Unverified
Cross-Modal Generative Augmentation for Visual Question Answering	May 11, 2021	Data AugmentationQuestion Answering	—Unverified
AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss	May 5, 2021	Question AnsweringVisual Question Answering	CodeCode Available
Proposal-free One-stage Referring Expression via Grid-Word Cross-Attention	May 5, 2021	Question AnsweringReferring Expression	—Unverified
Iterated learning for emergent systematicity in VQA	May 3, 2021	Question AnsweringSystematic Generalization	—Unverified
A survey on VQA_Datasets and Approaches	May 2, 2021	Question AnsweringSurvey	—Unverified

Show:10 25 50

← PrevPage 32 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified