Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1501–1550 of 2167 papers

Title	Date	Tasks	Status
UFO: A UniFied TransfOrmer for Vision-Language Representation Learning	Nov 19, 2021	Image CaptioningImage-text matching	—Unverified
Medical Visual Question Answering: A Survey	Nov 19, 2021	Medical Visual Question AnsweringQuestion Answering	—Unverified
Blind VQA on 360° Video via Progressively Learning from Pixels, Frames and Video	Nov 18, 2021	Visual Question Answering (VQA)	CodeCode Available
Achieving Human Parity on Visual Question Answering	Nov 17, 2021	Question AnsweringVisual Question Answering	—Unverified
Co-VQA : Answering by Interactive Sub Question Sequence	Nov 16, 2021	Question AnsweringVisual Question Answering	—Unverified
Language bias in Visual Question Answering: A Survey and Taxonomy	Nov 16, 2021	Question AnsweringVisual Question Answering	—Unverified
Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation	Nov 16, 2021	Image CaptioningKnowledge Distillation	—Unverified
Uncertainty-based Visual Question Answering: Estimating Semantic Inconsistency between Image and Knowledge Base	Nov 16, 2021	Question AnsweringSemantic Similarity	—Unverified
ViQuAE, a Dataset for Knowledge-based Visual Question Answering about Named Entities	Nov 16, 2021	ArticlesFace Recognition	CodeCode Available
Question-Led Semantic Structure Enhanced Attentions for VQA	Nov 16, 2021	Question AnsweringVisual Question Answering	—Unverified
Breaking Down Questions for Outside-Knowledge Visual Question Answering	Nov 16, 2021	Graph Neural NetworkQuestion Answering	—Unverified
A Good Prompt Is Worth Millions of Parameters: Low-resource Prompt-based Learning for Vision-Language Models	Nov 16, 2021	Language ModelingLanguage Modelling	—Unverified
Document AI: Benchmarks, Models and Applications	Nov 16, 2021	Deep LearningDocument AI	—Unverified
No-Reference Video Quality Assessment Based on Benford’s Law and Perceptual Features	Nov 12, 2021	No-Reference Image Quality AssessmentVideo Quality Assessment	CodeCode Available
Graph Relation Transformer: Incorporating pairwise object features into the Transformer architecture	Nov 11, 2021	Graph AttentionQuestion Answering	—Unverified
ICDAR 2021 Competition on Document VisualQuestion Answering	Nov 10, 2021	Visual Question Answering (VQA)	—Unverified
Visual Question Answering based on Formal Logic	Nov 8, 2021	Formal LogicQuestion Answering	—Unverified
CrossVQA: Scalably Generating Benchmarks for Systematically Testing VQA Generalization	Nov 1, 2021	Answer GenerationQuestion-Answer-Generation	—Unverified
Diversity and Consistency: Exploring Visual Question-Answer Pair Generation	Nov 1, 2021	DiversityQuestion Answering	—Unverified
MIRTT: Learning Multimodal Interaction Representations from Trilinear Transformers for Visual Question Answering	Nov 1, 2021	multimodal interactionMultiple-choice	CodeCode Available
Perceptual Score: What Data Modalities Does Your Model Perceive?	Oct 27, 2021	Question AnsweringVisual Dialog	CodeCode Available
Subtleties in the trainability of quantum machine learning models	Oct 27, 2021	BIG-bench Machine LearningQuantum Machine Learning	—Unverified
Alignment Attention by Matching Key and Query Distributions	Oct 25, 2021	Graph AttentionQuestion Answering	CodeCode Available
Robustness through Data Augmentation Loss Consistency	Oct 21, 2021	Multi-domain Dialogue State TrackingVisual Question Answering	CodeCode Available
Single-Modal Entropy based Active Learning for Visual Question Answering	Oct 21, 2021	Active LearningQuestion Answering	—Unverified
Evaluating and Improving Interactions with Hazy Oracles	Oct 19, 2021	Object TrackingReferring Expression	—Unverified
Towards Language-guided Visual Recognition via Dynamic Convolutions	Oct 17, 2021	Question AnsweringReferring Expression	CodeCode Available
Explore before Moving: A Feasible Path Estimation and Memory Recalling Framework for Embodied Navigation	Oct 16, 2021	Common Sense ReasoningEmbodied Question Answering	—Unverified
xGQA: Cross-Lingual Visual Question Answering	Oct 16, 2021	Cross-Lingual TransferLanguage Modeling	—Unverified
Guiding Visual Question Generation	Oct 15, 2021	Question GenerationQuestion-Generation	—Unverified
Semantically Distributed Robust Optimization for Vision-and-Language Inference	Oct 14, 2021	Data AugmentationNatural Language Inference	CodeCode Available
Improving Users' Mental Model with Attention-directed Counterfactual Edits	Oct 13, 2021	counterfactualQuestion Answering	—Unverified
MMIU: Dataset for Visual Intent Understanding in Multimodal Assistants	Oct 13, 2021	intent-classificationIntent Classification	—Unverified
Beyond Accuracy: A Consolidated Tool for Visual Question Answering Benchmarking	Oct 11, 2021	BenchmarkingQuestion Answering	CodeCode Available
Asking questions on handwritten document collections	Oct 2, 2021	Optical Character Recognition (OCR)Question Answering	—Unverified
Breaking Down Questions for Outside-Knowledge VQA	Sep 29, 2021	Graph Neural NetworkQuestion Answering	—Unverified
PRNet: A Progressive Regression Network for No-Reference User-Generated-Content Video Quality Assessment	Sep 29, 2021	regressionVideo Quality Assessment	—Unverified
Crossformer: Transformer with Alternated Cross-Layer Guidance	Sep 29, 2021	Inductive BiasMachine Translation	—Unverified
How Much Can CLIP Benefit Vision-and-Language Tasks?	Sep 29, 2021	Question AnsweringVisual Entailment	—Unverified
Variational Disentangled Attention for Regularized Visual Dialog	Sep 29, 2021	Question AnsweringVisual Dialog	—Unverified
Measuring CLEVRness: Black-box Testing of Visual Reasoning Models	Sep 29, 2021	BenchmarkingDiagnostic	—Unverified
VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering	Sep 27, 2021	Question AnsweringVisual Question Answering	—Unverified
High Frame Rate Video Quality Assessment using VMAF and Entropic Differences	Sep 27, 2021	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified
Multimodal Integration of Human-Like Attention in Visual Question Answering	Sep 27, 2021	Question AnsweringVisual Question Answering	—Unverified
How to find a good image-text embedding for remote sensing visual question answering?	Sep 24, 2021	Question AnsweringVisual Question Answering	—Unverified
Image Captioning for Effective Use of Language Models in Knowledge-Based Visual Question Answering	Sep 15, 2021	Image CaptioningKnowledge Graphs	CodeCode Available
Discovering the Unknown Knowns: Turning Implicit Knowledge in the Dataset into Explicit Training Examples for Visual Question Answering	Sep 13, 2021	Data AugmentationQuestion Answering	CodeCode Available
Towards Developing a Multilingual and Code-Mixed Visual Question Answering System by Knowledge Distillation	Sep 10, 2021	Knowledge DistillationQuestion Answering	—Unverified
TxT: Crossmodal End-to-End Learning with Transformers	Sep 9, 2021	Multimodal ReasoningQuestion Answering	—Unverified
Improved RAMEN: Towards Domain Generalization for Visual Question Answering	Sep 6, 2021	Domain GeneralizationQuestion Answering	CodeCode Available

Show:10 25 50

← PrevPage 31 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified