Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1751–1800 of 2167 papers

Title	Date	Tasks	Status
MoColl: Agent-Based Specific and General Model Collaboration for Image Captioning	Jan 3, 2025	DiagnosticGeneral Knowledge	—Unverified
Modeling Coreference Relations in Visual Dialog	Mar 6, 2022	Question AnsweringVisual Dialog	—Unverified
Modern Question Answering Datasets and Benchmarks: A Survey	Jun 30, 2022	Deep LearningQuestion Answering	—Unverified
Modular Graph Attention Network for Complex Visual Relational Reasoning	Nov 22, 2020	Graph AttentionQuestion Answering	—Unverified
Modulated Self-attention Convolutional Network for VQA	Oct 8, 2019	Question AnsweringVisual Question Answering	—Unverified
MoEMoE: Question Guided Dense and Scalable Sparse Mixture-of-Expert for Multi-source Multi-modal Answering	Mar 8, 2025	Answer GenerationMixture-of-Experts	—Unverified
Motion-Appearance Co-Memory Networks for Video Question Answering	Mar 29, 2018	Question AnsweringVideo Question Answering	—Unverified
MPDrive: Improving Spatial Understanding with Marker-Based Prompt Learning for Autonomous Driving	Apr 1, 2025	Autonomous DrivingPrompt Learning	—Unverified
mR^2AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA	Nov 22, 2024	RAGRetrieval	—Unverified
MRET: Multi-resolution Transformer for Video Quality Assessment	Mar 13, 2023	Video Quality AssessmentVideo Recognition	—Unverified
Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual Question Answering	Jun 16, 2020	Question AnsweringVisual Question Answering	—Unverified
Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA	Jan 29, 2024	BenchmarkingImage Comprehension	—Unverified
Multi-Agents Based on Large Language Models for Knowledge-based Visual Question Answering	Dec 24, 2024	Question AnsweringVisual Question Answering	—Unverified
Multi-CLIP: Contrastive Vision-Language Pre-training for Question Answering tasks in 3D Scenes	Jun 4, 2023	Common Sense ReasoningQuestion Answering	—Unverified
Multi-Clue Reasoning with Memory Augmentation for Knowledge-based Visual Question Answering	Dec 20, 2023	Question AnsweringVisual Question Answering	—Unverified
MuLTI: Efficient Video-and-Language Understanding with Text-Guided MultiWay-Sampler and Multiple Choice Modeling	Mar 10, 2023	Multi-Label ClassificationMUlTI-LABEL-ClASSIFICATION	—Unverified
Multi-grained Attention with Object-level Grounding for Visual Question Answering	Jul 1, 2019	ObjectQuestion Answering	—Unverified
Multi-Layer Content Interaction Through Quaternion Product For Visual Question Answering	Jan 3, 2020	Question AnsweringVideo Description	—Unverified
Multi-Level Attention Networks for Visual Question Answering	Jul 1, 2017	Question AnsweringVisual Question Answering	—Unverified
Multilevel Semantic-Aware Model for AI-Generated Video Quality Assessment	Jan 6, 2025	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified
Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for Vision-Language Tasks	Apr 22, 2022	Question AnsweringVisual Commonsense Reasoning	—Unverified
Multimodal Commonsense Knowledge Distillation for Visual Question Answering	Nov 5, 2024	Knowledge DistillationQuestion Answering	—Unverified
Multimodal Compact Bilinear Pooling for Multimodal Neural Machine Translation	Mar 23, 2017	DecoderMachine Translation	—Unverified
Multimodal Continuous Visual Attention Mechanisms	Apr 7, 2021	ClusteringQuestion Answering	—Unverified
Multi-modal Deep Analysis for Multimedia	Oct 11, 2019	Multi-modal RecommendationQuestion Answering	—Unverified
Multimodal Differential Network for Visual Question Generation	Oct 1, 2018	Image CaptioningNatural Questions	—Unverified
Multimodal Few-Shot Learning with Frozen Language Models	Jun 25, 2021	Few-Shot LearningLanguage Modeling	—Unverified
Multi-Modal Fusion Transformer for Visual Question Answering in Remote Sensing	Oct 10, 2022	Question AnsweringRepresentation Learning	—Unverified
Multimodal Graph Networks for Compositional Generalization in Visual Question Answering	Dec 1, 2020	Graph Neural NetworkQuestion Answering	—Unverified
Multimodal grid features and cell pointers for Scene Text Visual Question Answering	Jun 1, 2020	Question AnsweringVisual Question Answering	—Unverified
Multi-Modal Hallucination Control by Visual Information Grounding	Mar 20, 2024	HallucinationVisual Question Answering (VQA)	—Unverified
Multi-Modal Instruction-Tuning Small-Scale Language-and-Vision Assistant for Semiconductor Electron Micrograph Analysis	Aug 27, 2024	Instruction FollowingQuestion Answering	—Unverified
Multimodal Integration of Human-Like Attention in Visual Question Answering	Sep 27, 2021	Question AnsweringVisual Question Answering	—Unverified
Multimodal Intelligence: Representation Learning, Information Fusion, and Applications	Nov 10, 2019	Caption GenerationImage Generation	—Unverified
Multi-modality Latent Interaction Network for Visual Question Answering	Aug 10, 2019	Language ModelingLanguage Modelling	—Unverified
Multimodal Learning and Reasoning for Visual Question Answering	Dec 1, 2017	Question AnsweringRepresentation Learning	—Unverified
Scene Graph Reasoning with Prior Visual Relationship for Visual Question Answering	Dec 23, 2018	Cross-Modal Information RetrievalInformation Retrieval	—Unverified
Multimodal Machine Learning: Integrating Language, Vision and Speech	Jul 1, 2017	Audio-Visual Speech RecognitionBIG-bench Machine Learning	—Unverified
Multimodal Neural Graph Memory Networks for Visual Question Answering	Jul 1, 2020	Graph Neural NetworkQuestion Answering	—Unverified
Multimodal Neural Machine Translation for Low-resource Language Pairs using Synthetic Data	Jul 1, 2018	Image DescriptionMachine Translation	—Unverified
Multimodal Reranking for Knowledge-Intensive Visual Question Answering	Jul 17, 2024	Answer GenerationQuestion Answering	—Unverified
Multi-Modal Retrieval Augmentation for Open-Ended and Knowledge-Intensive Video Question Answering	Feb 17, 2025	Multiple-choiceQuestion Answering	—Unverified
Multimodal Unified Attention Networks for Vision-and-Language Interactions	Aug 12, 2019	Question AnsweringVisual Grounding	—Unverified
Multiple-Question Multiple-Answer Text-VQA	Nov 15, 2023	DecoderDenoising	—Unverified
Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based Person Re-Identification	Dec 28, 2023	Attributecross-modal alignment	—Unverified
Multi-task Learning of Hierarchical Vision-Language Representation	Dec 3, 2018	Multi-Task LearningQuestion Answering	—Unverified
MUST-VQA: MUltilingual Scene-text VQA	Sep 14, 2022	Question AnsweringVisual Question Answering	—Unverified
MuVAM: A Multi-View Attention-based Model for Medical Visual Question Answering	Jul 7, 2021	Medical Visual Question AnsweringMissing Labels	—Unverified
NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples	Oct 18, 2024	AttributeQuestion Answering	—Unverified
Natural Language Understanding and Inference with MLLM in Visual Question Answering: A Survey	Nov 26, 2024	Natural Language UnderstandingQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 36 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified