Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1426–1450 of 2167 papers

Title	Date	Tasks	Status	Hype
Greedy Gradient Ensemble for Robust Visual Question Answering	Jul 27, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
X-GGM: Graph Generative Modeling for Out-of-Distribution Generalization in Visual Question Answering	Jul 24, 2021	AttributeOut-of-Distribution Generalization	CodeCode Available	0
Separating Skills and Concepts for Novel Visual Question Answering	Jul 19, 2021	AttributeContrastive Learning	CodeCode Available	1
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation	Jul 16, 2021	Cross-Modal RetrievalGrounded language learning	CodeCode Available	1
How Much Can CLIP Benefit Vision-and-Language Tasks?	Jul 13, 2021	Question AnsweringVision and Language Navigation	CodeCode Available	1
Graphhopper: Multi-Hop Scene Graph Reasoning for Visual Question Answering	Jul 13, 2021	NavigateQuestion Answering	CodeCode Available	1
Zero-shot Visual Question Answering using Knowledge Graph	Jul 12, 2021	Knowledge GraphsQuestion Answering	CodeCode Available	1
DualVGR: A Dual-Visual Graph Reasoning Unit for Video Question Answering	Jul 10, 2021	Graph AttentionQuestion Answering	CodeCode Available	1
MuVAM: A Multi-View Attention-based Model for Medical Visual Question Answering	Jul 7, 2021	Medical Visual Question AnsweringMissing Labels	—Unverified	0
Mind Your Outliers! Investigating the Negative Impact of Outliers on Active Learning for Visual Question Answering	Jul 6, 2021	Active LearningObject Recognition	CodeCode Available	1
Cognitive Visual Commonsense Reasoning Using Dynamic Working Memory	Jul 4, 2021	Question AnsweringScene Understanding	CodeCode Available	0
Adventurer's Treasure Hunt: A Transparent System for Visually Grounded Compositional Visual Question Answering based on Scene Graphs	Jun 28, 2021	Question AnsweringTask 2	—Unverified	0
Multimodal Few-Shot Learning with Frozen Language Models	Jun 25, 2021	Few-Shot LearningLanguage Modeling	—Unverified	0
Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training	Jun 25, 2021	Image-text RetrievalQuestion Answering	—Unverified	0
A Picture May Be Worth a Hundred Words for Visual Question Answering	Jun 25, 2021	Data AugmentationDescriptive	—Unverified	0
FOVQA: Blind Foveated Video Quality Assessment	Jun 24, 2021	Video CompressionVideo Quality Assessment	—Unverified	0
A Transformer-based Cross-modal Fusion Model with Adversarial Training for VQA Challenge 2021	Jun 24, 2021	Visual Question Answering (VQA)	—Unverified	0
NExT-QA: Next Phase of Question-Answering to Explaining Temporal Actions	Jun 19, 2021	Question AnsweringVideo Question Answering	CodeCode Available	1
Perception Matters: Detecting Perception Failures of VQA Models Using Metamorphic Testing	Jun 19, 2021	BenchmarkingDNN Testing	CodeCode Available	1
Predicting Human Scanpaths in Visual Question Answering	Jun 19, 2021	Deep Reinforcement LearningQuestion Answering	CodeCode Available	1
RSTNet: Captioning With Adaptive Attention on Visual and Non-Visual Words	Jun 19, 2021	DecoderImage Captioning	CodeCode Available	1
VQA-Aid: Visual Question Answering for Post-Disaster Damage Assessment and Analysis	Jun 19, 2021	Question AnsweringVisual Question Answering	—Unverified	0
Probing Image-Language Transformers for Verb Understanding	Jun 16, 2021	Image RetrievalQuestion Answering	CodeCode Available	1
Assessment of Subjective and Objective Quality of Live Streaming Sports Videos	Jun 15, 2021	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified	0
How Modular Should Neural Module Networks Be for Systematic Generalization?	Jun 15, 2021	Question AnsweringSystematic Generalization	CodeCode Available	0

Show:10 25 50

← PrevPage 58 of 87Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified