Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1501–1550 of 2167 papers

Title	Date	Tasks	Status
Towards Escaping from Language Bias and OCR Error: Semantics-Centered Text Visual Question Answering	Mar 24, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Towards General Purpose Vision Systems: An End-to-End Task-Agnostic Vision-Language Architecture	Jan 1, 2022	Question AnsweringVisual Question Answering	—Unverified
Towards Human-Level Understanding of Complex Process Engineering Schematics: A Pedagogical, Introspective Multi-Agent Framework for Open-Domain Question Answering	Aug 24, 2024	knowledge editingOpen-Domain Question Answering	—Unverified
Towards Models that Can See and Read	Jan 18, 2023	DecoderImage Captioning	—Unverified
Towards Reasoning-Aware Explainable VQA	Nov 9, 2022	DecoderExplanation Generation	—Unverified
Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering	Nov 29, 2023	Common Sense ReasoningQuestion Answering	—Unverified
Towards Transparent AI Systems: Interpreting Visual Question Answering Models	Aug 31, 2016	Question AnsweringVisual Question Answering	—Unverified
Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know How to Reason?	Dec 20, 2022	Question AnsweringRepresentation Learning	—Unverified
Towards Visual Dialog for Radiology	Jul 1, 2020	Question AnsweringVisual Dialog	—Unverified
Toward Unsupervised Realistic Visual Question Answering	Mar 9, 2023	Question AnsweringVisual Question Answering	—Unverified
Training Recurrent Answering Units with Joint Loss Minimization for VQA	Jun 12, 2016	Question AnsweringVisual Question Answering	—Unverified
Transfer Learning in Visual and Relational Reasoning	Nov 27, 2019	Question AnsweringRelational Reasoning	—Unverified
Transferring Visual Attributes from Natural Language to Verified Image Generation	May 24, 2023	Image GenerationText to Image Generation	—Unverified
Transformers in Vision: A Survey	Jan 4, 2021	Action RecognitionActivity Recognition	—Unverified
Transform-Retrieve-Generate: Natural Language-Centric Outside-Knowledge Visual Question Answering	Jan 1, 2022	Generative Question AnsweringImage to text	—Unverified
Translation Deserves Better: Analyzing Translation Artifacts in Cross-lingual Visual Question Answering	Jun 4, 2024	Data AugmentationMachine Translation	—Unverified
Tree Memory Networks for Modelling Long-term Temporal Dependencies	Mar 12, 2017	Machine TranslationPart-Of-Speech Tagging	—Unverified
Triplet-Aware Scene Graph Embeddings	Sep 19, 2019	Data AugmentationGraph Embedding	—Unverified
Tri-VQA: Triangular Reasoning Medical Visual Question Answering for Multi-Attribute Analysis	Jun 21, 2024	AttributeMedical Visual Question Answering	—Unverified
TrojVLM: Backdoor Attack Against Vision Language Models	Sep 28, 2024	Backdoor AttackImage Captioning	—Unverified
TRRNet: Tiered Relation Reasoning for Compositional Visual Question Answering	Aug 1, 2020	ObjectQuestion Answering	—Unverified
TruthLens:A Training-Free Paradigm for DeepFake Detection	Mar 19, 2025	Binary ClassificationDeepFake Detection	—Unverified
Trying Bilinear Pooling in Video-QA	Dec 18, 2020	Question AnsweringVideo Question Answering	—Unverified
Two can play this Game: Visual Dialog with Discriminative Question Generation and Answering	Mar 29, 2018	Image CaptioningQuestion Answering	—Unverified
TxT: Crossmodal End-to-End Learning with Transformers	Sep 9, 2021	Multimodal ReasoningQuestion Answering	—Unverified
UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training	Apr 1, 2021	Image-text matchingImage-text Retrieval	—Unverified
U-CAM: Visual Explanation using Uncertainty based Class Activation Maps	Aug 17, 2019	Deep LearningProbabilistic Deep Learning	—Unverified
SearchLVLMs: A Plug-and-Play Framework for Augmenting Large Vision-Language Models by Searching Up-to-Date Internet Knowledge	May 23, 2024	Question AnsweringRAG	—Unverified
UFO: A UniFied TransfOrmer for Vision-Language Representation Learning	Nov 19, 2021	Image CaptioningImage-text matching	—Unverified
UIT-Saviors at MEDVQA-GI 2023: Improving Multimodal Learning with Image Enhancement for Gastrointestinal Visual Question Answering	Jul 6, 2023	DiagnosticImage Enhancement	—Unverified
Unanswerable Questions about Images and Texts	Jan 25, 2021	Question AnsweringVisual Question Answering	—Unverified
Uncertainty based Class Activation Maps for Visual Question Answering	Jan 23, 2020	Deep LearningProbabilistic Deep Learning	—Unverified
Uncertainty-based Visual Question Answering: Estimating Semantic Inconsistency between Image and Knowledge Base	Nov 16, 2021	Question AnsweringSemantic Similarity	—Unverified
Uncertainty-based Visual Question Answering: Estimating Semantic Inconsistency between Image and Knowledge Base	Jul 27, 2022	Question AnsweringSemantic Similarity	—Unverified
Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning	Mar 10, 2023	Few-Shot Image Classificationimage-classification	—Unverified
Understanding and Mitigating Classification Errors Through Interpretable Token Patterns	Nov 18, 2023	ClassificationNER	—Unverified
Understanding Attention for Vision-and-Language Tasks	Dec 17, 2021	Image GenerationImage Retrieval	—Unverified
Understanding in Artificial Intelligence	Jan 17, 2021	Natural Language UnderstandingQuestion Answering	—Unverified
Understanding Information Storage and Transfer in Multi-modal Large Language Models	Jun 6, 2024	Factual Visual Question AnsweringModel Editing	—Unverified
Understanding Knowledge Gaps in Visual Question Answering: Implications for Gap Identification and Testing	Apr 8, 2020	DiversityQuestion Answering	—Unverified
Understanding the Role of Scene Graphs in Visual Question Answering	Jan 14, 2021	Graph GenerationQuestion Answering	—Unverified
UnICLAM:Contrastive Representation Learning with Adversarial Masking for Unified and Interpretable Medical Vision Question Answering	Dec 21, 2022	Data AugmentationDecision Making	—Unverified
UniCode: Learning a Unified Codebook for Multimodal Large Language Models	Mar 14, 2024	QuantizationVisual Question Answering (VQA)	—Unverified
Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular Vision-Language Pre-training	Jan 11, 2022	DecoderImage Captioning	—Unverified
Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision Language Audio and Action	Jan 1, 2024	Image GenerationInstruction Following	—Unverified
Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks	Jun 17, 2022	Depth EstimationImage Generation	—Unverified
Unified Multimodal Pre-training and Prompt-based Tuning for Vision-Language Understanding and Generation	Dec 10, 2021	Image-text matchingImage-text Retrieval	—Unverified
Unified Scene Representation and Reconstruction for 3D Large Language Models	Apr 19, 2024	3D ReconstructionScene Understanding	—Unverified
Uni-Mlip: Unified Self-supervision for Medical Vision Language Pre-training	Nov 20, 2024	Contrastive Learningimage-classification	—Unverified
UniRVQA: A Unified Framework for Retrieval-Augmented Vision Question Answering via Self-Reflective Joint Training	Apr 5, 2025	ArticlesQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 31 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified