Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1401–1450 of 2167 papers

Title	Date	Tasks	Status
Sentence Attention Blocks for Answer Grounding	Sep 20, 2023	Question AnsweringSentence	—Unverified
Is the House Ready For Sleeptime? Generating and Evaluating Situational Queries for Embodied Question Answering	May 8, 2024	2kEmbodied Question Answering	—Unverified
Serving and Optimizing Machine Learning Workflows on Heterogeneous Infrastructures	May 10, 2022	AutoMLBIG-bench Machine Learning	—Unverified
Sheffield MultiMT: Using Object Posterior Predictions for Multimodal Machine Translation	Sep 1, 2017	Image CaptioningImage Classification	—Unverified
Show Why the Answer is Correct! Towards Explainable AI using Compositional Temporal Attention	May 15, 2021	Question AnsweringVisual Question Answering	—Unverified
Silence is Not Consensus: Disrupting Agreement Bias in Multi-Agent LLMs via Catfish Agent for Clinical Decision Making	May 27, 2025	Decision MakingDiagnostic	—Unverified
Simple is not Easy: A Simple Strong Baseline for TextVQA and TextCaps	Dec 9, 2020	DecoderImage Captioning	—Unverified
SimpleLLM4AD: An End-to-End Vision-Language Model with Graph Visual Question Answering for Autonomous Driving	Jul 31, 2024	Autonomous DrivingLanguage Modeling	—Unverified
SimpsonsVQA: Enhancing Inquiry-Based Learning with a Tailored Dataset	Oct 30, 2024	Question AnsweringVisual Question Answering	—Unverified
SimVQA: Exploring Simulated Environments for Visual Question Answering	Mar 31, 2022	Data AugmentationDiversity	—Unverified
Single-Modal Entropy based Active Learning for Visual Question Answering	Oct 21, 2021	Active LearningQuestion Answering	—Unverified
SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs	Jun 28, 2024	RAGRetrieval-augmented Generation	—Unverified
SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding	Oct 15, 2024	Instruction FollowingVisual Question Answering (VQA)	—Unverified
SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning	Jun 26, 2025	In-Context LearningMedical Visual Question Answering	—Unverified
SnapNTell: Enhancing Entity-Centric Visual Question Answering with Retrieval Augmented Multimodal LLM	Mar 7, 2024	Question AnsweringRetrieval	—Unverified
SocialGesture: Delving into Multi-person Gesture Understanding	Apr 3, 2025	Gesture RecognitionQuestion Answering	—Unverified
Social-LLaVA: Enhancing Robot Navigation through Human-Language Reasoning in Social Spaces	Dec 30, 2024	2kRobot Navigation	—Unverified
Solving Visual Madlibs with Multiple Cues	Aug 11, 2016	Activity PredictionAttribute	—Unverified
Sparks of Artificial General Intelligence(AGI) in Semiconductor Material Science: Early Explorations into the Next Frontier of Generative AI-Assisted Electron Micrograph Analysis	Sep 17, 2024	In-Context LearningQuestion Answering	—Unverified
Sparse Attention Vectors: Generative Multimodal Model Features Are Discriminative Vision-Language Classifiers	Nov 28, 2024	Image Captioningimage-classification	—Unverified
Spatial Attention as an Interface for Image Captioning Models	Sep 29, 2020	Image CaptioningQuestion Answering	—Unverified
Spatial Knowledge Distillation to aid Visual Reasoning	Dec 10, 2018	DiagnosticKnowledge Distillation	—Unverified
Spatial Language Understanding with Multimodal Graphs using Declarative Learning based Programming	Sep 1, 2017	Image CaptioningImage Retrieval	—Unverified
SpatialLLM: A Compound 3D-Informed Design towards Spatially-Intelligent Large Multimodal Models	May 1, 2025	Spatial ReasoningVisual Question Answering (VQA)	—Unverified
SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities	Jan 22, 2024	Question AnsweringSpatial Reasoning	—Unverified
Spectral Graph-Based Method of Multimodal Word Embedding	Aug 1, 2017	Graph EmbeddingImage Retrieval	—Unverified
SplatTalk: 3D VQA with Gaussian Splatting	Mar 8, 2025	3DGSQuestion Answering	—Unverified
Spoken question answering for visual queries	May 29, 2025	Question AnsweringVisual Question Answering (VQA)	—Unverified
SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions	Jan 20, 2020	Visual Question Answering (VQA)	—Unverified
Stacked Latent Attention for Multimodal Reasoning	Jun 1, 2018	Image CaptioningMultimodal Reasoning	—Unverified
Stacking with Auxiliary Features for Visual Question Answering	Jun 1, 2018	Common Sense ReasoningQuestion Answering	—Unverified
StackOverflowVQA: Stack Overflow Visual Question Answering Dataset	May 17, 2024	Question AnsweringSentence	—Unverified
Steering LVLMs via Sparse Autoencoder for Hallucination Mitigation	May 22, 2025	HallucinationImage Captioning	—Unverified
STL-CQA: Structure-based Transformers with Localization and Encoding for Chart Question Answering	Nov 1, 2020	Chart Question AnsweringQuestion Answering	—Unverified
Straight to the Facts: Learning Knowledge Base Retrieval for Factual Visual Question Answering	Sep 4, 2018	Factual Visual Question AnsweringGeneral Knowledge	—Unverified
StructuralLM: Structural Pre-training for Form Understanding	May 24, 2021	document-image-classificationDocument Image Classification	—Unverified
Structured Two-stream Attention Network for Video Question Answering	Jun 2, 2022	Question AnsweringVideo Question Answering	—Unverified
Structure Learning for Neural Module Networks	May 27, 2019	Question AnsweringVisual Question Answering	—Unverified
Study of Subjective and Objective Quality Assessment of Mobile Cloud Gaming Videos	May 26, 2023	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified
Study of the effect of Sharpness on Blind Video Quality Assessment	Apr 6, 2024	SSIMVideo Quality Assessment	—Unverified
Subjective and Objective Analysis of Streamed Gaming Videos	Mar 24, 2022	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified
Subjective and Objective Quality Assessment of Rendered Human Avatar Videos in Virtual Reality	Aug 13, 2024	Video CompressionVideo Quality Assessment	—Unverified
Subtleties in the trainability of quantum machine learning models	Oct 27, 2021	BIG-bench Machine LearningQuantum Machine Learning	—Unverified
Sunny and Dark Outside?! Improving Answer Consistency in VQA through Entailed Question Generation	Sep 10, 2019	Common Sense ReasoningData Augmentation	—Unverified
Supervising the Transfer of Reasoning Patterns in VQA	Jun 10, 2021	PAC learningTransfer Learning	—Unverified
Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery	Mar 22, 2024	Language ModelingLanguage Modelling	—Unverified
SurgicalVLM-Agent: Towards an Interactive AI Co-Pilot for Pituitary Surgery	Mar 12, 2025	Activity RecognitionAnatomy	—Unverified
Survey of Recent Advances in Visual Question Answering	Sep 24, 2017	Question AnsweringSurvey	—Unverified
Survey of Visual Question Answering: Datasets and Techniques	May 10, 2017	Deep LearningQuestion Answering	—Unverified
Survey of Visual-Semantic Embedding Methods for Zero-Shot Image Retrieval	May 16, 2021	Graph GenerationImage Captioning	—Unverified

Show:10 25 50

← PrevPage 29 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified