Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 801–850 of 2167 papers

Title	Date	Tasks	Status
How Well Can Vison-Language Models Understand Humans' Intention? An Open-ended Theory of Mind Question Evaluation Benchmark	Mar 28, 2025	Question AnsweringVisual Question Answering	—Unverified
CP-LLM: Context and Pixel Aware Large Language Model for Video Quality Assessment	May 21, 2025	Language ModelingLanguage Modelling	—Unverified
Connecting phases of matter to the flatness of the loss landscape in analog variational quantum algorithms	Jun 16, 2025	Visual Question Answering (VQA)	—Unverified
CQ-VQA: Visual Question Answering on Categorized Questions	Feb 17, 2020	Question AnsweringVisual Question Answering	—Unverified
Connecting Language and Vision to Actions	Jul 1, 2018	Image CaptioningLanguage Modeling	—Unverified
Guiding Medical Vision-Language Models with Explicit Visual Prompts: Framework Design and Comprehensive Exploration of Prompt Variations	Jan 4, 2025	DecoderVisual Question Answering (VQA)	—Unverified
A Transformer-based Cross-modal Fusion Model with Adversarial Training for VQA Challenge 2021	Jun 24, 2021	Visual Question Answering (VQA)	—Unverified
Human Attention in Visual Question Answering: Do Humans and Deep Networks Look at the Same Regions?	Jun 11, 2016	Question AnsweringVisual Question Answering	—Unverified
Hummingbird: High Fidelity Image Generation via Multimodal Context Alignment	Feb 7, 2025	DiversityHuman-Object Interaction Detection	—Unverified
HVS Revisited: A Comprehensive Video Quality Assessment Framework	Oct 9, 2022	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified
Grounding Complex Navigational Instructions Using Scene Graphs	Jun 3, 2021	Question Answeringreinforcement-learning	—Unverified
Grounding Chest X-Ray Visual Question Answering with Generated Radiology Reports	May 22, 2025	Answer GenerationQuestion Answering	—Unverified
Grounding Answers for Visual Questions Asked by Visually Impaired People	Jun 20, 2022	Question AnsweringVisual Question Answering	—Unverified
A Token-level Text Image Foundation Model for Document Understanding	Mar 4, 2025	document understandingVisual Question Answering (VQA)	—Unverified
Large Scale Scene Text Verification with Guided Attention	Apr 23, 2018	Question AnsweringScene Text Detection	—Unverified
LEAF-QA: Locate, Encode & Attend for Figure Question Answering	Jul 30, 2019	Chart Question AnsweringQuestion Answering	—Unverified
Compressing Visual-linguistic Model via Knowledge Distillation	Apr 5, 2021	Image CaptioningKnowledge Distillation	—Unverified
ICDAR 2021 Competition on Document VisualQuestion Answering	Nov 10, 2021	Visual Question Answering (VQA)	—Unverified
Grounded Word Sense Translation	Jun 1, 2019	Grounded language learningMachine Translation	—Unverified
LAPDoc: Layout-Aware Prompting for Documents	Feb 15, 2024	document understandingKey Information Extraction	—Unverified
A Dataset for Multimodal Question Answering in the Cultural Heritage Domain	Dec 1, 2016	Question AnsweringSpeech Recognition	—Unverified
Neural Reasoning, Fast and Slow, for Video Question Answering	Jul 10, 2019	Natural QuestionsQuestion Answering	—Unverified
Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models	Oct 21, 2024	Instruction Followingobject-detection	—Unverified
A Thousand Words Are Worth More Than a Picture: Natural Language-Centric Outside-Knowledge Visual Question Answering	Jan 14, 2022	Generative Question AnsweringImage to text	—Unverified
Graph-Structured Representations for Visual Question Answering	Sep 19, 2016	Multiple-choiceQuestion Answering	—Unverified
CLIPPO: Image-and-Language Understanding from Pixels Only	Dec 15, 2022	Contrastive Learningimage-classification	—Unverified
Compound Tokens: Channel Fusion for Vision-Language Representation Learning	Dec 2, 2022	DecoderLanguage Modeling	—Unverified
Image Captioning and Visual Question Answering Based on Attributes and External Knowledge	Mar 9, 2016	General KnowledgeImage Captioning	—Unverified
Image Captioning with Compositional Neural Module Networks	Jul 10, 2020	Image CaptioningQuestion Answering	—Unverified
Image Manipulation via Multi-Hop Instructions -- A New Dataset and Weakly-Supervised Neuro-Symbolic Approach	May 23, 2023	Image ManipulationQuestion Answering	—Unverified
Graph Relation Transformer: Incorporating pairwise object features into the Transformer architecture	Nov 11, 2021	Graph AttentionQuestion Answering	—Unverified
Bilinear Graph Networks for Visual Question Answering	Jul 23, 2019	Question AnsweringVisual Question Answering	—Unverified
Aligning MAGMA by Few-Shot Learning and Finetuning	Oct 18, 2022	Few-Shot LearningImage Captioning	—Unverified
ImageTTR: Grounding Type Theory with Records in Image Classification for Visual Question Answering	Jun 1, 2019	General Classificationimage-classification	—Unverified
Graph Neural Networks in Vision-Language Image Understanding: A Survey	Mar 7, 2023	Image CaptioningImage Retrieval	—Unverified
CrossVQA: Scalably Generating Benchmarks for Systematically Testing VQA Generalization	Nov 1, 2021	Answer GenerationQuestion-Answer-Generation	—Unverified
Compositional Memory for Visual Question Answering	Nov 18, 2015	Question AnsweringVisual Question Answering	—Unverified
Improved Bilinear Pooling with CNNs	Jul 21, 2017	GPUQuestion Answering	—Unverified
Graph Edit Distance Reward: Learning to Edit Scene Graph	Aug 15, 2020	Graph MatchingImage Retrieval	—Unverified
Improved Few-Shot Image Classification Through Multiple-Choice Questions	Jul 23, 2024	ArticlesFew-Shot Image Classification	—Unverified
A survey on VQA_Datasets and Approaches	May 2, 2021	Question AnsweringSurvey	—Unverified
Improving and Diagnosing Knowledge-Based Visual Question Answering via Entity Enhanced Knowledge Injection	Dec 13, 2021	Common Sense ReasoningKnowledge Graph Embeddings	—Unverified
Improving Automatic VQA Evaluation Using Large Language Models	Oct 4, 2023	In-Context LearningQuestion Answering	—Unverified
Improving Cross-Modal Understanding in Visual Dialog via Contrastive Learning	Apr 15, 2022	Contrastive LearningQuestion Answering	—Unverified
Improving Data Augmentation for Robust Visual Question Answering with Effective Curriculum Learning	Jan 28, 2024	Data AugmentationQuestion Answering	—Unverified
Improving Generalization in Visual Reasoning via Self-Ensemble	Oct 28, 2024	Visual Question Answering (VQA)Visual Reasoning	—Unverified
A survey on knowledge-enhanced multimodal learning	Nov 19, 2022	Conditional Image GenerationFactual Visual Question Answering	—Unverified
Improving mitosis detection on histopathology images using large vision-language models	Oct 11, 2023	Domain GeneralizationImage Captioning	—Unverified
Graph-based Heuristic Search for Module Selection Procedure in Neural Module Network	Sep 30, 2020	Heuristic SearchQuestion Answering	—Unverified
GRAM: Global Reasoning for Multi-Page VQA	Jan 7, 2024	Question AnsweringVisual Question Answering	—Unverified

Show:10 25 50

← PrevPage 17 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	InternVL-C	Accuracy	81.2	—	Unverified
10	Lyrics	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified