Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1351–1400 of 2167 papers

Title	Date	Tasks	Status	Hype
ICDAR 2021 Competition on Document VisualQuestion Answering	Nov 10, 2021	Visual Question Answering (VQA)	—Unverified	0
Visual Question Answering based on Formal Logic	Nov 8, 2021	Formal LogicQuestion Answering	—Unverified	0
An Empirical Study of Training End-to-End Vision-and-Language Transformers	Nov 3, 2021	Cross-Modal RetrievalDecoder	CodeCode Available	1
VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts	Nov 3, 2021	Image RetrievalImage-text Retrieval	CodeCode Available	1
ViVQA: Vietnamese Visual Question Answering	Nov 1, 2021	Question AnsweringVietnamese Visual Question Answering	CodeCode Available	1
CrossVQA: Scalably Generating Benchmarks for Systematically Testing VQA Generalization	Nov 1, 2021	Answer GenerationQuestion-Answer-Generation	—Unverified	0
Diversity and Consistency: Exploring Visual Question-Answer Pair Generation	Nov 1, 2021	DiversityQuestion Answering	—Unverified	0
MIRTT: Learning Multimodal Interaction Representations from Trilinear Transformers for Visual Question Answering	Nov 1, 2021	multimodal interactionMultiple-choice	CodeCode Available	0
Introspective Distillation for Robust Question Answering	Nov 1, 2021	counterfactualInductive Bias	CodeCode Available	1
Subtleties in the trainability of quantum machine learning models	Oct 27, 2021	BIG-bench Machine LearningQuantum Machine Learning	—Unverified	0
Perceptual Score: What Data Modalities Does Your Model Perceive?	Oct 27, 2021	Question AnsweringVisual Dialog	CodeCode Available	0
IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning	Oct 25, 2021	Arithmetic ReasoningMathematical Question Answering	CodeCode Available	1
Alignment Attention by Matching Key and Query Distributions	Oct 25, 2021	Graph AttentionQuestion Answering	CodeCode Available	0
Single-Modal Entropy based Active Learning for Visual Question Answering	Oct 21, 2021	Active LearningQuestion Answering	—Unverified	0
Robustness through Data Augmentation Loss Consistency	Oct 21, 2021	Multi-domain Dialogue State TrackingVisual Question Answering	CodeCode Available	0
Evaluating and Improving Interactions with Hazy Oracles	Oct 19, 2021	Object TrackingReferring Expression	—Unverified	0
Label-Descriptive Patterns and Their Application to Characterizing Classification Errors	Oct 18, 2021	Descriptivenamed-entity-recognition	CodeCode Available	1
Towards Language-guided Visual Recognition via Dynamic Convolutions	Oct 17, 2021	Question AnsweringReferring Expression	CodeCode Available	0
xGQA: Cross-Lingual Visual Question Answering	Oct 16, 2021	Cross-Lingual TransferLanguage Modeling	—Unverified	0
A Good Prompt Is Worth Millions of Parameters: Low-resource Prompt-based Learning for Vision-Language Models	Oct 16, 2021	Image CaptioningLanguage Modeling	CodeCode Available	1
Explore before Moving: A Feasible Path Estimation and Memory Recalling Framework for Embodied Navigation	Oct 16, 2021	Common Sense ReasoningEmbodied Question Answering	—Unverified	0
Guiding Visual Question Generation	Oct 15, 2021	Question GenerationQuestion-Generation	—Unverified	0
Semantically Distributed Robust Optimization for Vision-and-Language Inference	Oct 14, 2021	Data AugmentationNatural Language Inference	CodeCode Available	0
Improving Users' Mental Model with Attention-directed Counterfactual Edits	Oct 13, 2021	counterfactualQuestion Answering	—Unverified	0
MMIU: Dataset for Visual Intent Understanding in Multimodal Assistants	Oct 13, 2021	intent-classificationIntent Classification	—Unverified	0
Pano-AVQA: Grounded Audio-Visual Question Answering on 360^ Videos	Oct 11, 2021	Audio-visual Question AnsweringQuestion Answering	CodeCode Available	1
Beyond Accuracy: A Consolidated Tool for Visual Question Answering Benchmarking	Oct 11, 2021	BenchmarkingQuestion Answering	CodeCode Available	0
Coarse-to-Fine Reasoning for Visual Question Answering	Oct 6, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
Counterfactual Samples Synthesizing and Training for Robust Visual Question Answering	Oct 3, 2021	counterfactualDiagnostic	CodeCode Available	1
ProTo: Program-Guided Transformer for Program-Guided Tasks	Oct 2, 2021	Decision MakingLearning to Execute	CodeCode Available	1
Asking questions on handwritten document collections	Oct 2, 2021	Optical Character Recognition (OCR)Question Answering	—Unverified	0
The Spoon Is in the Sink: Assisting Visually Impaired People in the Kitchen	Oct 1, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
Calibrating Concepts and Operations: Towards Symbolic Reasoning on Real Images	Oct 1, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
Breaking Down Questions for Outside-Knowledge VQA	Sep 29, 2021	Graph Neural NetworkQuestion Answering	—Unverified	0
PRNet: A Progressive Regression Network for No-Reference User-Generated-Content Video Quality Assessment	Sep 29, 2021	regressionVideo Quality Assessment	—Unverified	0
Variational Disentangled Attention for Regularized Visual Dialog	Sep 29, 2021	Question AnsweringVisual Dialog	—Unverified	0
How Much Can CLIP Benefit Vision-and-Language Tasks?	Sep 29, 2021	Question AnsweringVisual Entailment	—Unverified	0
Measuring CLEVRness: Black-box Testing of Visual Reasoning Models	Sep 29, 2021	BenchmarkingDiagnostic	—Unverified	0
Crossformer: Transformer with Alternated Cross-Layer Guidance	Sep 29, 2021	Inductive BiasMachine Translation	—Unverified	0
High Frame Rate Video Quality Assessment using VMAF and Entropic Differences	Sep 27, 2021	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified	0
VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering	Sep 27, 2021	Question AnsweringVisual Question Answering	—Unverified	0
Multimodal Integration of Human-Like Attention in Visual Question Answering	Sep 27, 2021	Question AnsweringVisual Question Answering	—Unverified	0
How to find a good image-text embedding for remote sensing visual question answering?	Sep 24, 2021	Question AnsweringVisual Question Answering	—Unverified	0
Does Vision-and-Language Pretraining Improve Lexical Grounding?	Sep 21, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
ChipQA: No-Reference Video Quality Prediction via Space-Time Chips	Sep 17, 2021	Video Quality AssessmentVisual Question Answering (VQA)	CodeCode Available	1
Image Captioning for Effective Use of Language Models in Knowledge-Based Visual Question Answering	Sep 15, 2021	Image CaptioningKnowledge Graphs	CodeCode Available	0
xGQA: Cross-Lingual Visual Question Answering	Sep 13, 2021	Cross-Lingual TransferLanguage Modeling	CodeCode Available	1
Discovering the Unknown Knowns: Turning Implicit Knowledge in the Dataset into Explicit Training Examples for Visual Question Answering	Sep 13, 2021	Data AugmentationQuestion Answering	CodeCode Available	0
Towards Developing a Multilingual and Code-Mixed Visual Question Answering System by Knowledge Distillation	Sep 10, 2021	Knowledge DistillationQuestion Answering	—Unverified	0
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA	Sep 10, 2021	Image CaptioningQuestion Answering	CodeCode Available	1

Show:10 25 50

← PrevPage 28 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified