Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1401–1425 of 2167 papers

Title	Date	Tasks	Status	Hype
TxT: Crossmodal End-to-End Learning with Transformers	Sep 9, 2021	Multimodal ReasoningQuestion Answering	—Unverified	0
Weakly-Supervised Visual-Retriever-Reader for Knowledge-based Question Answering	Sep 9, 2021	Question AnsweringRetrieval	CodeCode Available	1
GeneAnnotator: A Semi-automatic Annotation Tool for Visual Scene Graph	Sep 6, 2021	Graph GenerationGraph Learning	CodeCode Available	1
Improved RAMEN: Towards Domain Generalization for Visual Question Answering	Sep 6, 2021	Domain GeneralizationQuestion Answering	CodeCode Available	0
Weakly Supervised Relative Spatial Reasoning for Visual Question Answering	Sep 4, 2021	Question AnsweringSpatial Reasoning	CodeCode Available	0
A review of Quantum Neural Networks: Methods, Models, Dilemma	Sep 4, 2021	Computational EfficiencyVisual Question Answering (VQA)	—Unverified	0
WebQA: Multihop and Multimodal QA	Sep 1, 2021	Image RetrievalMultimodal Reasoning	CodeCode Available	1
QACE: Asking Questions to Evaluate an Image Caption	Aug 28, 2021	Question AnsweringVisual Question Answering (VQA)	CodeCode Available	0
On the Significance of Question Encoder Sequence Model in the Out-of-Distribution Performance in Visual Question Answering	Aug 28, 2021	Graph AttentionQuestion Answering	—Unverified	0
SimVLM: Simple Visual Language Model Pretraining with Weak Supervision	Aug 24, 2021	Image CaptioningLanguage Modeling	CodeCode Available	1
Auto-Parsing Network for Image Captioning and Visual Question Answering	Aug 24, 2021	Image CaptioningQuestion Answering	—Unverified	0
EKTVQA: Generalized use of External Knowledge to empower Scene Text in Text-VQA	Aug 22, 2021	Open-Ended Question AnsweringOptical Character Recognition (OCR)	—Unverified	0
StarVQA: Space-Time Attention for Video Quality Assessment	Aug 22, 2021	Video Quality AssessmentVisual Question Answering (VQA)	CodeCode Available	0
Localize, Group, and Select: Boosting Text-VQA by Scene Text Modeling	Aug 20, 2021	Data AblationOptical Character Recognition	—Unverified	0
Blindly Assess Quality of In-the-Wild Videos via Quality-aware Pre-training and Motion Perception	Aug 19, 2021	Action RecognitionImage Quality Assessment	CodeCode Available	1
X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics	Aug 18, 2021	Cross-Modal RetrievalDecoder	CodeCode Available	1
VALSE: A Task-Independent Benchmark for Vision and Language Models centered on Linguistic Phenomena	Aug 17, 2021	Question AnsweringVisual Question Answering	—Unverified	0
Task-Oriented Multi-User Semantic Communications for VQA Task	Aug 16, 2021	Question AnsweringSemantic Communication	CodeCode Available	1
BERTHop: An Effective Vision-and-Language Model for Chest X-ray Disease Diagnosis	Aug 10, 2021	Language ModelingLanguage Modelling	CodeCode Available	0
Sparse Continuous Distributions and Fenchel-Young Losses	Aug 4, 2021	Audio ClassificationQuestion Answering	CodeCode Available	1
LRRA:A Transparent Neural-Symbolic Reasoning Framework for Real-World Visual Question Answering	Aug 1, 2021	Question AnsweringVisual Question Answering	—Unverified	0
利用图像描述与知识图谱增强表示的视觉问答(Exploiting Image Captions and External Knowledge as Representation Enhancement for Visual Question Answering)	Aug 1, 2021	Image CaptioningQuestion Answering	—Unverified	0
Check It Again:Progressive Visual Question Answering via Visual Entailment	Aug 1, 2021	Question AnsweringVisual Entailment	CodeCode Available	1
Towards Visual Question Answering on Pathology Images	Aug 1, 2021	Decision MakingQuestion Answering	CodeCode Available	0
In Factuality: Efficient Integration of Relevant Facts for Visual Question Answering	Aug 1, 2021	Question AnsweringVisual Question Answering	—Unverified	0

Show:10 25 50

← PrevPage 57 of 87Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified