Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–450 of 2167 papers

Title	Date	Tasks	Status	Hype
Reliable Visual Question Answering: Abstain Rather Than Answer Incorrectly	Apr 28, 2022	Question AnsweringVisual Question Answering	CodeCode Available	1
GRIT: General Robust Image Task Benchmark	Apr 28, 2022	Instance SegmentationKeypoint Detection	CodeCode Available	1
RelViT: Concept-guided Vision Transformer for Visual Relational Reasoning	Apr 24, 2022	Human-Object Interaction DetectionObject	CodeCode Available	1
Hypergraph Transformer: Weakly-supervised Multi-hop Reasoning for Knowledge-based Visual Question Answering	Apr 22, 2022	Question AnsweringVisual Question Answering	CodeCode Available	1
Attention in Reasoning: Dataset, Analysis, and Modeling	Apr 20, 2022	Question AnsweringVisual Question Answering	CodeCode Available	1
SwapMix: Diagnosing and Regularizing the Over-Reliance on Visual Context in Visual Question Answering	Apr 5, 2022	Data AugmentationQuestion Answering	CodeCode Available	1
CLEVR-X: A Visual Reasoning Dataset for Natural Language Explanations	Apr 5, 2022	Explanation GenerationQuestion Answering	CodeCode Available	1
End-to-end Document Recognition and Understanding with Dessurt	Mar 30, 2022	document understandingVisual Question Answering (VQA)	CodeCode Available	1
Learning to Answer Questions in Dynamic Audio-Visual Scenarios	Mar 26, 2022	audio-visual learningAudio-visual Question Answering	CodeCode Available	1
MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering	Mar 17, 2022	Implicit RelationsQuestion Answering	CodeCode Available	1
NLX-GPT: A Model for Natural Language Explanations in Vision and Vision-Language Tasks	Mar 9, 2022	Decision MakingExplainable artificial intelligence	CodeCode Available	1
AssistQ: Affordance-centric Question-driven Task Completion for Egocentric Assistant	Mar 8, 2022	Visual Question Answering (VQA)	CodeCode Available	1
IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages	Jan 27, 2022	Cross-Modal RetrievalFew-Shot Learning	CodeCode Available	1
FAVER: Blind Quality Prediction of Variable Frame Rate Videos	Jan 5, 2022	Cloud ComputingVideo Quality Assessment	CodeCode Available	1
Maintaining Reasoning Consistency in Compositional Visual Question Answering	Jan 1, 2022	Question AnsweringVisual Question Answering	CodeCode Available	1
LaTr: Layout-Aware Transformer for Scene-Text VQA	Dec 23, 2021	Optical Character Recognition (OCR)Question Answering	CodeCode Available	1
Comprehensive Visual Question Answering on Point Clouds through Compositional Scene Manipulation	Dec 22, 2021	Common Sense ReasoningQuestion Answering	CodeCode Available	1
ScanQA: 3D Question Answering for Spatial Scene Understanding	Dec 20, 2021	3D Question Answering (3D-QA)Object	CodeCode Available	1
Align and Prompt: Video-and-Language Pre-training with Entity Prompts	Dec 17, 2021	cross-modal alignmentEntity Alignment	CodeCode Available	1
Distilled Dual-Encoder Model for Vision-Language Understanding	Dec 16, 2021	Image to textmodel	CodeCode Available	1
KAT: A Knowledge Augmented Transformer for Vision-and-Language	Dec 16, 2021	Answer GenerationDecoder	CodeCode Available	1
Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in Visual Question Answering	Dec 14, 2021	Graph MatchingQuestion Answering	CodeCode Available	1
Dual-Key Multimodal Backdoors for Visual Question Answering	Dec 14, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
Change Detection Meets Visual Question Answering	Dec 12, 2021	Answer GenerationChange Detection	CodeCode Available	1
Video as Conditional Graph Hierarchy for Multi-Granular Question Answering	Dec 12, 2021	Question AnsweringVideo Question Answering	CodeCode Available	1
MLP Architectures for Vision-and-Language Modeling: An Empirical Study	Dec 8, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
Debiased Visual Question Answering from Feature and Sample Perspectives	Dec 1, 2021	Bias DetectionQuestion Answering	CodeCode Available	1
Searching the Search Space of Vision Transformer	Nov 29, 2021	Neural Architecture Searchobject-detection	CodeCode Available	1
Classification-Regression for Chart Comprehension	Nov 29, 2021	Chart Question AnsweringClassification	CodeCode Available	1
UniTAB: Unifying Text and Box Outputs for Grounded Vision-Language Modeling	Nov 23, 2021	Image CaptioningImage Description	CodeCode Available	1
Many Heads but One Brain: Fusion Brain -- a Competition and a Single Multimodal Multitask Architecture	Nov 22, 2021	Handwritten Text Recognitionobject-detection	CodeCode Available	1
Florence: A New Foundation Model for Computer Vision	Nov 22, 2021	Action ClassificationAction Recognition	CodeCode Available	1
Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts	Nov 16, 2021	Cross-Modal RetrievalImage Captioning	CodeCode Available	1
An Empirical Study of Training End-to-End Vision-and-Language Transformers	Nov 3, 2021	Cross-Modal RetrievalDecoder	CodeCode Available	1
VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts	Nov 3, 2021	Image RetrievalImage-text Retrieval	CodeCode Available	1
ViVQA: Vietnamese Visual Question Answering	Nov 1, 2021	Question AnsweringVietnamese Visual Question Answering	CodeCode Available	1
Introspective Distillation for Robust Question Answering	Nov 1, 2021	counterfactualInductive Bias	CodeCode Available	1
IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning	Oct 25, 2021	Arithmetic ReasoningMathematical Question Answering	CodeCode Available	1
Label-Descriptive Patterns and Their Application to Characterizing Classification Errors	Oct 18, 2021	Descriptivenamed-entity-recognition	CodeCode Available	1
A Good Prompt Is Worth Millions of Parameters: Low-resource Prompt-based Learning for Vision-Language Models	Oct 16, 2021	Image CaptioningLanguage Modeling	CodeCode Available	1
Pano-AVQA: Grounded Audio-Visual Question Answering on 360^ Videos	Oct 11, 2021	Audio-visual Question AnsweringQuestion Answering	CodeCode Available	1
Coarse-to-Fine Reasoning for Visual Question Answering	Oct 6, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
Counterfactual Samples Synthesizing and Training for Robust Visual Question Answering	Oct 3, 2021	counterfactualDiagnostic	CodeCode Available	1
ProTo: Program-Guided Transformer for Program-Guided Tasks	Oct 2, 2021	Decision MakingLearning to Execute	CodeCode Available	1
The Spoon Is in the Sink: Assisting Visually Impaired People in the Kitchen	Oct 1, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
Calibrating Concepts and Operations: Towards Symbolic Reasoning on Real Images	Oct 1, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
Does Vision-and-Language Pretraining Improve Lexical Grounding?	Sep 21, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
ChipQA: No-Reference Video Quality Prediction via Space-Time Chips	Sep 17, 2021	Video Quality AssessmentVisual Question Answering (VQA)	CodeCode Available	1
xGQA: Cross-Lingual Visual Question Answering	Sep 13, 2021	Cross-Lingual TransferLanguage Modeling	CodeCode Available	1
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA	Sep 10, 2021	Image CaptioningQuestion Answering	CodeCode Available	1

Show:10 25 50

← PrevPage 9 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified