Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1401–1450 of 2167 papers

Title	Date	Tasks	Status	Hype
TxT: Crossmodal End-to-End Learning with Transformers	Sep 9, 2021	Multimodal ReasoningQuestion Answering	—Unverified	0
Weakly-Supervised Visual-Retriever-Reader for Knowledge-based Question Answering	Sep 9, 2021	Question AnsweringRetrieval	CodeCode Available	1
GeneAnnotator: A Semi-automatic Annotation Tool for Visual Scene Graph	Sep 6, 2021	Graph GenerationGraph Learning	CodeCode Available	1
Improved RAMEN: Towards Domain Generalization for Visual Question Answering	Sep 6, 2021	Domain GeneralizationQuestion Answering	CodeCode Available	0
Weakly Supervised Relative Spatial Reasoning for Visual Question Answering	Sep 4, 2021	Question AnsweringSpatial Reasoning	CodeCode Available	0
A review of Quantum Neural Networks: Methods, Models, Dilemma	Sep 4, 2021	Computational EfficiencyVisual Question Answering (VQA)	—Unverified	0
WebQA: Multihop and Multimodal QA	Sep 1, 2021	Image RetrievalMultimodal Reasoning	CodeCode Available	1
QACE: Asking Questions to Evaluate an Image Caption	Aug 28, 2021	Question AnsweringVisual Question Answering (VQA)	CodeCode Available	0
On the Significance of Question Encoder Sequence Model in the Out-of-Distribution Performance in Visual Question Answering	Aug 28, 2021	Graph AttentionQuestion Answering	—Unverified	0
SimVLM: Simple Visual Language Model Pretraining with Weak Supervision	Aug 24, 2021	Image CaptioningLanguage Modeling	CodeCode Available	1
Auto-Parsing Network for Image Captioning and Visual Question Answering	Aug 24, 2021	Image CaptioningQuestion Answering	—Unverified	0
EKTVQA: Generalized use of External Knowledge to empower Scene Text in Text-VQA	Aug 22, 2021	Open-Ended Question AnsweringOptical Character Recognition (OCR)	—Unverified	0
StarVQA: Space-Time Attention for Video Quality Assessment	Aug 22, 2021	Video Quality AssessmentVisual Question Answering (VQA)	CodeCode Available	0
Localize, Group, and Select: Boosting Text-VQA by Scene Text Modeling	Aug 20, 2021	Data AblationOptical Character Recognition	—Unverified	0
Blindly Assess Quality of In-the-Wild Videos via Quality-aware Pre-training and Motion Perception	Aug 19, 2021	Action RecognitionImage Quality Assessment	CodeCode Available	1
X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics	Aug 18, 2021	Cross-Modal RetrievalDecoder	CodeCode Available	1
VALSE: A Task-Independent Benchmark for Vision and Language Models centered on Linguistic Phenomena	Aug 17, 2021	Question AnsweringVisual Question Answering	—Unverified	0
Task-Oriented Multi-User Semantic Communications for VQA Task	Aug 16, 2021	Question AnsweringSemantic Communication	CodeCode Available	1
BERTHop: An Effective Vision-and-Language Model for Chest X-ray Disease Diagnosis	Aug 10, 2021	Language ModelingLanguage Modelling	CodeCode Available	0
Sparse Continuous Distributions and Fenchel-Young Losses	Aug 4, 2021	Audio ClassificationQuestion Answering	CodeCode Available	1
LRRA:A Transparent Neural-Symbolic Reasoning Framework for Real-World Visual Question Answering	Aug 1, 2021	Question AnsweringVisual Question Answering	—Unverified	0
利用图像描述与知识图谱增强表示的视觉问答(Exploiting Image Captions and External Knowledge as Representation Enhancement for Visual Question Answering)	Aug 1, 2021	Image CaptioningQuestion Answering	—Unverified	0
Check It Again:Progressive Visual Question Answering via Visual Entailment	Aug 1, 2021	Question AnsweringVisual Entailment	CodeCode Available	1
Towards Visual Question Answering on Pathology Images	Aug 1, 2021	Decision MakingQuestion Answering	CodeCode Available	0
In Factuality: Efficient Integration of Relevant Facts for Visual Question Answering	Aug 1, 2021	Question AnsweringVisual Question Answering	—Unverified	0
Greedy Gradient Ensemble for Robust Visual Question Answering	Jul 27, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
X-GGM: Graph Generative Modeling for Out-of-Distribution Generalization in Visual Question Answering	Jul 24, 2021	AttributeOut-of-Distribution Generalization	CodeCode Available	0
Separating Skills and Concepts for Novel Visual Question Answering	Jul 19, 2021	AttributeContrastive Learning	CodeCode Available	1
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation	Jul 16, 2021	Cross-Modal RetrievalGrounded language learning	CodeCode Available	1
How Much Can CLIP Benefit Vision-and-Language Tasks?	Jul 13, 2021	Question AnsweringVision and Language Navigation	CodeCode Available	1
Graphhopper: Multi-Hop Scene Graph Reasoning for Visual Question Answering	Jul 13, 2021	NavigateQuestion Answering	CodeCode Available	1
Zero-shot Visual Question Answering using Knowledge Graph	Jul 12, 2021	Knowledge GraphsQuestion Answering	CodeCode Available	1
DualVGR: A Dual-Visual Graph Reasoning Unit for Video Question Answering	Jul 10, 2021	Graph AttentionQuestion Answering	CodeCode Available	1
MuVAM: A Multi-View Attention-based Model for Medical Visual Question Answering	Jul 7, 2021	Medical Visual Question AnsweringMissing Labels	—Unverified	0
Mind Your Outliers! Investigating the Negative Impact of Outliers on Active Learning for Visual Question Answering	Jul 6, 2021	Active LearningObject Recognition	CodeCode Available	1
Cognitive Visual Commonsense Reasoning Using Dynamic Working Memory	Jul 4, 2021	Question AnsweringScene Understanding	CodeCode Available	0
Adventurer's Treasure Hunt: A Transparent System for Visually Grounded Compositional Visual Question Answering based on Scene Graphs	Jun 28, 2021	Question AnsweringTask 2	—Unverified	0
Multimodal Few-Shot Learning with Frozen Language Models	Jun 25, 2021	Few-Shot LearningLanguage Modeling	—Unverified	0
Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training	Jun 25, 2021	Image-text RetrievalQuestion Answering	—Unverified	0
A Picture May Be Worth a Hundred Words for Visual Question Answering	Jun 25, 2021	Data AugmentationDescriptive	—Unverified	0
FOVQA: Blind Foveated Video Quality Assessment	Jun 24, 2021	Video CompressionVideo Quality Assessment	—Unverified	0
A Transformer-based Cross-modal Fusion Model with Adversarial Training for VQA Challenge 2021	Jun 24, 2021	Visual Question Answering (VQA)	—Unverified	0
NExT-QA: Next Phase of Question-Answering to Explaining Temporal Actions	Jun 19, 2021	Question AnsweringVideo Question Answering	CodeCode Available	1
Perception Matters: Detecting Perception Failures of VQA Models Using Metamorphic Testing	Jun 19, 2021	BenchmarkingDNN Testing	CodeCode Available	1
Predicting Human Scanpaths in Visual Question Answering	Jun 19, 2021	Deep Reinforcement LearningQuestion Answering	CodeCode Available	1
RSTNet: Captioning With Adaptive Attention on Visual and Non-Visual Words	Jun 19, 2021	DecoderImage Captioning	CodeCode Available	1
VQA-Aid: Visual Question Answering for Post-Disaster Damage Assessment and Analysis	Jun 19, 2021	Question AnsweringVisual Question Answering	—Unverified	0
Probing Image-Language Transformers for Verb Understanding	Jun 16, 2021	Image RetrievalQuestion Answering	CodeCode Available	1
Assessment of Subjective and Objective Quality of Live Streaming Sports Videos	Jun 15, 2021	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified	0
How Modular Should Neural Module Networks Be for Systematic Generalization?	Jun 15, 2021	Question AnsweringSystematic Generalization	CodeCode Available	0

Show:10 25 50

← PrevPage 29 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified