Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1451–1500 of 2167 papers

Title	Date	Tasks	Status
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling	Dec 6, 2024	document understandingHallucination	—Unverified
Expanding the Boundaries of Vision Prior Knowledge in Multi-modal Large Language Models	Mar 23, 2025	Question AnsweringVisual Question Answering	—Unverified
Explanation vs Attention: A Two-Player Game to Obtain Attention for VQA	Nov 19, 2019	Question AnsweringVisual Question Answering	—Unverified
Explicit Bias Discovery in Visual Question Answering Models	Nov 19, 2018	Question AnsweringVisual Question Answering	—Unverified
Explicit Knowledge-based Reasoning for Visual Question Answering	Nov 9, 2015	Question AnsweringVisual Question Answering	—Unverified
Explicit Reasoning over End-to-End Neural Architectures for Visual Question Answering	Mar 23, 2018	Question AnsweringVisual Question Answering	—Unverified
Explore before Moving: A Feasible Path Estimation and Memory Recalling Framework for Embodied Navigation	Oct 16, 2021	Common Sense ReasoningEmbodied Question Answering	—Unverified
Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison	Feb 20, 2025	DiversityLanguage Modeling	—Unverified
Exploring Diverse Methods in Visual Question Answering	Apr 21, 2024	Question AnsweringVisual Question Answering	—Unverified
Exploring Human-like Attention Supervision in Visual Question Answering	Sep 19, 2017	Question AnsweringVisual Question Answering	—Unverified
Exploring Question Decomposition for Zero-Shot VQA	Oct 25, 2023	Question AnsweringVisual Question Answering	—Unverified
Exploring Sparse Spatial Relation in Graph Inference for Text-Based VQA	Oct 13, 2023	Graph LearningObject	—Unverified
Exploring the Effectiveness of Object-Centric Representations in Visual Question Answering: Comparative Insights with Foundation Models	Jul 22, 2024	Question AnsweringRepresentation Learning	—Unverified
Exploring Weaknesses of VQA Models through Attribution Driven Insights	Jun 11, 2020	Question AnsweringVisual Question Answering	—Unverified
Extending Class Activation Mapping Using Gaussian Receptive Field	Jan 15, 2020	Deep LearningImage Classification	—Unverified
EKTVQA: Generalized use of External Knowledge to empower Scene Text in Text-VQA	Aug 22, 2021	Open-Ended Question AnsweringOptical Character Recognition (OCR)	—Unverified
Extracting Training Data from Document-Based VQA Models	Jul 11, 2024	MemorizationQuestion Answering	—Unverified
EyeFound: A Multimodal Generalist Foundation Model for Ophthalmic Imaging	May 18, 2024	Question AnsweringVisual Question Answering	—Unverified
Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning	Apr 19, 2024	Benchmarkingcounterfactual	—Unverified
EyeSim-VQA: A Free-Energy-Guided Eye Simulation Framework for Video Quality Assessment	Jun 13, 2025	Image Quality AssessmentVideo Quality Assessment	—Unverified
F^3OCUS -- Federated Finetuning of Vision-Language Foundation Models with Optimal Client Layer Updating Strategy via Multi-objective Meta-Heuristics	Nov 17, 2024	DiversityFederated Learning	—Unverified
F^3OCUS - Federated Finetuning of Vision-Language Foundation Models with Optimal Client Layer Updating Strategy via Multi-objective Meta-Heuristics	Jan 1, 2025	DiversityFederated Learning	—Unverified
FashionVQA: A Domain-Specific Visual Question Answering System	Aug 24, 2022	Question AnsweringVisual Question Answering	—Unverified
Fast or Slow? Integrating Fast Intuition and Deliberate Thinking for Enhancing Visual Question Answering	Jun 1, 2025	AllMME	—Unverified
Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields	Mar 26, 2025	Question AnsweringVisual Question Answering	—Unverified
Few-Shot Image Classification and Segmentation as Visual Question Answering Using Vision-Language Models	Mar 15, 2024	Few-Shot Image Classificationimage-classification	—Unverified
Few-shot Multimodal Multitask Multilingual Learning	Feb 19, 2023	Few-Shot LearningIn-Context Learning	—Unverified
Few-Shot VQA with Frozen LLMs: A Tale of Two Approaches	Mar 17, 2024	Image CaptioningQuestion Answering	—Unverified
FilterRAG: Zero-Shot Informed Retrieval-Augmented Generation to Mitigate Hallucinations in VQA	Feb 25, 2025	Question AnsweringRetrieval	—Unverified
Finding the Evidence: Localization-aware Answer Prediction for Text Visual Question Answering	Oct 6, 2020	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Find The Gap: Knowledge Base Reasoning For Visual Question Answering	Apr 16, 2024	Question AnsweringRetrieval	—Unverified
Fine-Grained Retrieval-Augmented Generation for Visual Question Answering	Feb 28, 2025	Question AnsweringRAG	—Unverified
Correlation Information Bottleneck: Towards Adapting Pretrained Multimodal Models for Robust Visual Question Answering	Sep 14, 2022	Adversarial RobustnessQuestion Answering	—Unverified
Fine-tuning vs From Scratch: Do Vision & Language Models Have Similar Capabilities on Out-of-Distribution Visual Question Answering?	Jun 1, 2022	Question AnsweringVisual Question Answering	—Unverified
FineVQ: Fine-Grained User Generated Content Video Quality Assessment	Dec 26, 2024	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified
FlexCap: Describe Anything in Images in Controllable Detail	Mar 18, 2024	AttributeDense Captioning	—Unverified
FMBench: Benchmarking Fairness in Multimodal Large Language Models on Medical Tasks	Oct 1, 2024	BenchmarkingFairness	—Unverified
Focused Evaluation for Image Description with Binary Forced-Choice Tasks	Aug 1, 2016	Image CaptioningImage Description	—Unverified
FOCUS: Internal MLLM Representations for Efficient Fine-Grained Visual Question Answering	Jun 25, 2025	Question AnsweringVisual Question Answering	—Unverified
Focus on What Matters: Enhancing Medical Vision-Language Models with Automatic Attention Alignment Tuning	May 24, 2025	Visual Question Answering (VQA)	—Unverified
Fooling Vision and Language Models Despite Localization and Attention Mechanism	Sep 25, 2017	Dense CaptioningNatural Language Understanding	—Unverified
Foundational Model for Electron Micrograph Analysis: Instruction-Tuning Small-Scale Language-and-Vision Assistant for Enterprise Adoption	Aug 23, 2024	Instruction FollowingKnowledge Distillation	—Unverified
FOVQA: Blind Foveated Video Quality Assessment	Jun 24, 2021	Video CompressionVideo Quality Assessment	—Unverified
Free Form Medical Visual Question Answering in Radiology	Jan 23, 2024	DiagnosticForm	—Unverified
From Easy to Hard: Learning Language-guided Curriculum for Visual Question Answering on Remote Sensing Data	May 6, 2022	Question AnsweringVisual Question Answering	—Unverified
From Images to Textual Prompts: Zero-Shot Visual Question Answering With Frozen Large Language Models	Jan 1, 2023	Question AnsweringVisual Question Answering	—Unverified
From Image to Language: A Critical Analysis of Visual Question Answering (VQA) Approaches, Challenges, and Opportunities	Nov 1, 2023	NavigateQuestion Answering	—Unverified
From Known to the Unknown: Transferring Knowledge to Answer Questions about Novel Visual and Semantic Concepts	Nov 30, 2018	Novel ConceptsQuestion Answering	—Unverified
From Pixels to Graphs: using Scene and Knowledge Graphs for HD-EPIC VQA Challenge	Jun 10, 2025	Knowledge GraphsLanguage Modeling	—Unverified
From Pixels to Objects: Cubic Visual Attention for Visual Question Answering	Jun 4, 2022	ObjectQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 30 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified