Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1501–1525 of 2167 papers

Title	Date	Tasks	Status
UFO: A UniFied TransfOrmer for Vision-Language Representation Learning	Nov 19, 2021	Image CaptioningImage-text matching	—Unverified
Medical Visual Question Answering: A Survey	Nov 19, 2021	Medical Visual Question AnsweringQuestion Answering	—Unverified
Blind VQA on 360° Video via Progressively Learning from Pixels, Frames and Video	Nov 18, 2021	Visual Question Answering (VQA)	CodeCode Available
Achieving Human Parity on Visual Question Answering	Nov 17, 2021	Question AnsweringVisual Question Answering	—Unverified
Co-VQA : Answering by Interactive Sub Question Sequence	Nov 16, 2021	Question AnsweringVisual Question Answering	—Unverified
Language bias in Visual Question Answering: A Survey and Taxonomy	Nov 16, 2021	Question AnsweringVisual Question Answering	—Unverified
Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation	Nov 16, 2021	Image CaptioningKnowledge Distillation	—Unverified
Uncertainty-based Visual Question Answering: Estimating Semantic Inconsistency between Image and Knowledge Base	Nov 16, 2021	Question AnsweringSemantic Similarity	—Unverified
ViQuAE, a Dataset for Knowledge-based Visual Question Answering about Named Entities	Nov 16, 2021	ArticlesFace Recognition	CodeCode Available
Question-Led Semantic Structure Enhanced Attentions for VQA	Nov 16, 2021	Question AnsweringVisual Question Answering	—Unverified
Breaking Down Questions for Outside-Knowledge Visual Question Answering	Nov 16, 2021	Graph Neural NetworkQuestion Answering	—Unverified
A Good Prompt Is Worth Millions of Parameters: Low-resource Prompt-based Learning for Vision-Language Models	Nov 16, 2021	Language ModelingLanguage Modelling	—Unverified
Document AI: Benchmarks, Models and Applications	Nov 16, 2021	Deep LearningDocument AI	—Unverified
No-Reference Video Quality Assessment Based on Benford’s Law and Perceptual Features	Nov 12, 2021	No-Reference Image Quality AssessmentVideo Quality Assessment	CodeCode Available
Graph Relation Transformer: Incorporating pairwise object features into the Transformer architecture	Nov 11, 2021	Graph AttentionQuestion Answering	—Unverified
ICDAR 2021 Competition on Document VisualQuestion Answering	Nov 10, 2021	Visual Question Answering (VQA)	—Unverified
Visual Question Answering based on Formal Logic	Nov 8, 2021	Formal LogicQuestion Answering	—Unverified
CrossVQA: Scalably Generating Benchmarks for Systematically Testing VQA Generalization	Nov 1, 2021	Answer GenerationQuestion-Answer-Generation	—Unverified
Diversity and Consistency: Exploring Visual Question-Answer Pair Generation	Nov 1, 2021	DiversityQuestion Answering	—Unverified
MIRTT: Learning Multimodal Interaction Representations from Trilinear Transformers for Visual Question Answering	Nov 1, 2021	multimodal interactionMultiple-choice	CodeCode Available
Perceptual Score: What Data Modalities Does Your Model Perceive?	Oct 27, 2021	Question AnsweringVisual Dialog	CodeCode Available
Subtleties in the trainability of quantum machine learning models	Oct 27, 2021	BIG-bench Machine LearningQuantum Machine Learning	—Unverified
Alignment Attention by Matching Key and Query Distributions	Oct 25, 2021	Graph AttentionQuestion Answering	CodeCode Available
Robustness through Data Augmentation Loss Consistency	Oct 21, 2021	Multi-domain Dialogue State TrackingVisual Question Answering	CodeCode Available
Single-Modal Entropy based Active Learning for Visual Question Answering	Oct 21, 2021	Active LearningQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 61 of 87Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified