Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–500 of 2167 papers

Title	Date	Tasks	Status	Hype
Weakly-Supervised Visual-Retriever-Reader for Knowledge-based Question Answering	Sep 9, 2021	Question AnsweringRetrieval	CodeCode Available	1
GeneAnnotator: A Semi-automatic Annotation Tool for Visual Scene Graph	Sep 6, 2021	Graph GenerationGraph Learning	CodeCode Available	1
WebQA: Multihop and Multimodal QA	Sep 1, 2021	Image RetrievalMultimodal Reasoning	CodeCode Available	1
SimVLM: Simple Visual Language Model Pretraining with Weak Supervision	Aug 24, 2021	Image CaptioningLanguage Modeling	CodeCode Available	1
Blindly Assess Quality of In-the-Wild Videos via Quality-aware Pre-training and Motion Perception	Aug 19, 2021	Action RecognitionImage Quality Assessment	CodeCode Available	1
X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics	Aug 18, 2021	Cross-Modal RetrievalDecoder	CodeCode Available	1
Task-Oriented Multi-User Semantic Communications for VQA Task	Aug 16, 2021	Question AnsweringSemantic Communication	CodeCode Available	1
Sparse Continuous Distributions and Fenchel-Young Losses	Aug 4, 2021	Audio ClassificationQuestion Answering	CodeCode Available	1
Check It Again:Progressive Visual Question Answering via Visual Entailment	Aug 1, 2021	Question AnsweringVisual Entailment	CodeCode Available	1
Greedy Gradient Ensemble for Robust Visual Question Answering	Jul 27, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
Separating Skills and Concepts for Novel Visual Question Answering	Jul 19, 2021	AttributeContrastive Learning	CodeCode Available	1
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation	Jul 16, 2021	Cross-Modal RetrievalGrounded language learning	CodeCode Available	1
Graphhopper: Multi-Hop Scene Graph Reasoning for Visual Question Answering	Jul 13, 2021	NavigateQuestion Answering	CodeCode Available	1
How Much Can CLIP Benefit Vision-and-Language Tasks?	Jul 13, 2021	Question AnsweringVision and Language Navigation	CodeCode Available	1
Zero-shot Visual Question Answering using Knowledge Graph	Jul 12, 2021	Knowledge GraphsQuestion Answering	CodeCode Available	1
DualVGR: A Dual-Visual Graph Reasoning Unit for Video Question Answering	Jul 10, 2021	Graph AttentionQuestion Answering	CodeCode Available	1
Mind Your Outliers! Investigating the Negative Impact of Outliers on Active Learning for Visual Question Answering	Jul 6, 2021	Active LearningObject Recognition	CodeCode Available	1
NExT-QA: Next Phase of Question-Answering to Explaining Temporal Actions	Jun 19, 2021	Question AnsweringVideo Question Answering	CodeCode Available	1
Perception Matters: Detecting Perception Failures of VQA Models Using Metamorphic Testing	Jun 19, 2021	BenchmarkingDNN Testing	CodeCode Available	1
Predicting Human Scanpaths in Visual Question Answering	Jun 19, 2021	Deep Reinforcement LearningQuestion Answering	CodeCode Available	1
RSTNet: Captioning With Adaptive Attention on Visual and Non-Visual Words	Jun 19, 2021	DecoderImage Captioning	CodeCode Available	1
Probing Image-Language Transformers for Verb Understanding	Jun 16, 2021	Image RetrievalQuestion Answering	CodeCode Available	1
Check It Again: Progressive Visual Question Answering via Visual Entailment	Jun 8, 2021	Question AnsweringVisual Entailment	CodeCode Available	1
Multi-modal Understanding and Generation for Medical Images and Text via Vision-Language Pre-Training	May 24, 2021	Image CaptioningMedical Visual Question Answering	CodeCode Available	1
Multiple Meta-model Quantifying for Medical Visual Question Answering	May 19, 2021	Medical Visual Question AnsweringMeta-Learning	CodeCode Available	1
NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions	May 18, 2021	Question AnsweringVideo Question Answering	CodeCode Available	1
Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules	May 11, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
Inter-GPS: Interpretable Geometry Problem Solving with Formal Language and Symbolic Reasoning	May 10, 2021	Arithmetic ReasoningGeometry Problem Solving	CodeCode Available	1
Passage Retrieval for Outside-Knowledge Visual Question Answering	May 9, 2021	Image CaptioningObject	CodeCode Available	1
MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding	Apr 26, 2021	Generalized Referring Expression ComprehensionPhrase Grounding	CodeCode Available	1
RelTransformer: A Transformer-Based Long-Tail Visual Relationship Recognition	Apr 24, 2021	Image CaptioningObject Recognition	CodeCode Available	1
GraghVQA: Language-Guided Graph Neural Networks for Graph-based Visual Question Answering	Apr 20, 2021	Graph Neural NetworkGraph Question Answering	CodeCode Available	1
Beyond Question-Based Biases: Assessing Multimodal Shortcut Learning in Visual Question Answering	Apr 7, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
MMBERT: Multimodal BERT Pretraining for Improved Medical VQA	Apr 3, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
VisQA: X-raying Vision and Language Reasoning in Transformers	Apr 2, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
Towards General Purpose Vision Systems	Apr 1, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
Are Bias Mitigation Techniques for Deep Learning Effective?	Apr 1, 2021	Deep LearningQuestion Answering	CodeCode Available	1
Generic Attention-model Explainability for Interpreting Bi-Modal and Encoder-Decoder Transformers	Mar 29, 2021	DecoderImage Segmentation	CodeCode Available	1
SUTD-TrafficQA: A Question Answering Benchmark and an Efficient Network for Video Reasoning over Traffic Events	Mar 29, 2021	Autonomous VehiclesBenchmarking	CodeCode Available	1
On the hidden treasure of dialog in video question answering	Mar 26, 2021	Question AnsweringVideo Question Answering	CodeCode Available	1
Multi-Modal Answer Validation for Knowledge-Based VQA	Mar 23, 2021	Question AnsweringRetrieval	CodeCode Available	1
Going Full-TILT Boogie on Document Understanding with Text-Image-Layout Transformer	Feb 18, 2021	DecoderDocument Image Classification	CodeCode Available	1
SLAKE: A Semantically-Labeled Knowledge-Enhanced Dataset for Medical Visual Question Answering	Feb 18, 2021	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	1
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts	Feb 17, 2021	Caption GenerationDiversity	CodeCode Available	1
Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling	Feb 11, 2021	Question AnsweringRetrieval	CodeCode Available	1
ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision	Feb 5, 2021	Cross-Modal RetrievalImage Retrieval	CodeCode Available	1
Unifying Vision-and-Language Tasks via Text Generation	Feb 4, 2021	Conditional Text GenerationDecoder	CodeCode Available	1
VisualMRC: Machine Reading Comprehension on Document Images	Jan 27, 2021	Machine Reading ComprehensionNatural Language Understanding	CodeCode Available	1
Multimodal Co-Attention Transformer for Survival Prediction in Gigapixel Whole Slide Images	Jan 1, 2021	AttributeMultiple Instance Learning	CodeCode Available	1
TRAR: Routing the Attention Spans in Transformer for Visual Question Answering	Jan 1, 2021	Question AnsweringReferring Expression	CodeCode Available	1

Show:10 25 50

← PrevPage 10 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	InternVL-C	Accuracy	81.2	—	Unverified
10	Lyrics	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified