Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 426–450 of 2167 papers

Title	Date	Tasks	Status	Hype
MLP Architectures for Vision-and-Language Modeling: An Empirical Study	Dec 8, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
Debiased Visual Question Answering from Feature and Sample Perspectives	Dec 1, 2021	Bias DetectionQuestion Answering	CodeCode Available	1
Searching the Search Space of Vision Transformer	Nov 29, 2021	Neural Architecture Searchobject-detection	CodeCode Available	1
Classification-Regression for Chart Comprehension	Nov 29, 2021	Chart Question AnsweringClassification	CodeCode Available	1
UniTAB: Unifying Text and Box Outputs for Grounded Vision-Language Modeling	Nov 23, 2021	Image CaptioningImage Description	CodeCode Available	1
Many Heads but One Brain: Fusion Brain -- a Competition and a Single Multimodal Multitask Architecture	Nov 22, 2021	Handwritten Text Recognitionobject-detection	CodeCode Available	1
Florence: A New Foundation Model for Computer Vision	Nov 22, 2021	Action ClassificationAction Recognition	CodeCode Available	1
Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts	Nov 16, 2021	Cross-Modal RetrievalImage Captioning	CodeCode Available	1
An Empirical Study of Training End-to-End Vision-and-Language Transformers	Nov 3, 2021	Cross-Modal RetrievalDecoder	CodeCode Available	1
VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts	Nov 3, 2021	Image RetrievalImage-text Retrieval	CodeCode Available	1
ViVQA: Vietnamese Visual Question Answering	Nov 1, 2021	Question AnsweringVietnamese Visual Question Answering	CodeCode Available	1
Introspective Distillation for Robust Question Answering	Nov 1, 2021	counterfactualInductive Bias	CodeCode Available	1
IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning	Oct 25, 2021	Arithmetic ReasoningMathematical Question Answering	CodeCode Available	1
Label-Descriptive Patterns and Their Application to Characterizing Classification Errors	Oct 18, 2021	Descriptivenamed-entity-recognition	CodeCode Available	1
A Good Prompt Is Worth Millions of Parameters: Low-resource Prompt-based Learning for Vision-Language Models	Oct 16, 2021	Image CaptioningLanguage Modeling	CodeCode Available	1
Pano-AVQA: Grounded Audio-Visual Question Answering on 360^ Videos	Oct 11, 2021	Audio-visual Question AnsweringQuestion Answering	CodeCode Available	1
Coarse-to-Fine Reasoning for Visual Question Answering	Oct 6, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
Counterfactual Samples Synthesizing and Training for Robust Visual Question Answering	Oct 3, 2021	counterfactualDiagnostic	CodeCode Available	1
ProTo: Program-Guided Transformer for Program-Guided Tasks	Oct 2, 2021	Decision MakingLearning to Execute	CodeCode Available	1
The Spoon Is in the Sink: Assisting Visually Impaired People in the Kitchen	Oct 1, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
Calibrating Concepts and Operations: Towards Symbolic Reasoning on Real Images	Oct 1, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
Does Vision-and-Language Pretraining Improve Lexical Grounding?	Sep 21, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
ChipQA: No-Reference Video Quality Prediction via Space-Time Chips	Sep 17, 2021	Video Quality AssessmentVisual Question Answering (VQA)	CodeCode Available	1
xGQA: Cross-Lingual Visual Question Answering	Sep 13, 2021	Cross-Lingual TransferLanguage Modeling	CodeCode Available	1
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA	Sep 10, 2021	Image CaptioningQuestion Answering	CodeCode Available	1

Show:10 25 50

← PrevPage 18 of 87Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified