Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2126–2150 of 2167 papers

Title	Date	Tasks	Status
Few-Shot Multimodal Explanation for Visual Question Answering	Oct 28, 2024	Explainable artificial intelligenceExplainable Artificial Intelligence (XAI)	CodeCode Available
An Entropy Clustering Approach for Assessing Visual Question Difficulty	Apr 12, 2020	ClusteringQuestion Answering	CodeCode Available
Adapting Lightweight Vision Language Models for Radiological Visual Question Answering	Jun 17, 2025	DiagnosticQuestion Answering	CodeCode Available
ShapeWorld - A new test methodology for multimodal language understanding	Apr 14, 2017	Multimodal Deep LearningVisual Question Answering	CodeCode Available
Visual Question Answering: A Survey of Methods and Datasets	Jul 20, 2016	General KnowledgeSurvey	CodeCode Available
Federated Document Visual Question Answering: A Pilot Study	May 10, 2024	Federated LearningQuestion Answering	CodeCode Available
Show, Ask, Attend, and Answer: A Strong Baseline For Visual Question Answering	Apr 11, 2017	Visual Question AnsweringVisual Question Answering (VQA)	CodeCode Available
Understanding Multimodal LLMs: the Mechanistic Interpretability of Llava in Visual Question Answering	Nov 17, 2024	HallucinationIn-Context Learning	CodeCode Available
Siamese Tracking with Lingual Object Constraints	Nov 23, 2020	ObjectObject Tracking	CodeCode Available
Why Did the Chicken Cross the Road? Rephrasing and Analyzing Ambiguous Questions in VQA	Nov 14, 2022	Question GenerationQuestion-Generation	CodeCode Available
Simple Baseline for Visual Question Answering	Dec 7, 2015	Visual Question AnsweringVisual Question Answering (VQA)	CodeCode Available
Compressing And Debiasing Vision-Language Pre-Trained Models for Visual Question Answering	Oct 26, 2022	Question AnsweringVisual Question Answering	CodeCode Available
ActivityNet-QA: A Dataset for Understanding Complex Web Videos via Question Answering	Jun 6, 2019	Question AnsweringVideo Question Answering	CodeCode Available
ActionCOMET: A Zero-shot Approach to Learn Image-specific Commonsense Concepts about Actions	Oct 17, 2024	Visual Question Answering (VQA)	CodeCode Available
Factor Graph Attention	Apr 11, 2019	Graph AttentionQuestion Answering	CodeCode Available
12-in-1: Multi-Task Vision and Language Representation Learning	Dec 5, 2019	10-shot image generationImage Retrieval	CodeCode Available
VQA Therapy: Exploring Answer Differences by Visually Grounding Answers	Aug 21, 2023	Question AnsweringVisual Question Answering	CodeCode Available
Single-Stream Multi-Level Alignment for Vision-Language Pretraining	Mar 27, 2022	Image-text RetrievalQuestion Answering	CodeCode Available
Exploring the Potential of Encoder-free Architectures in 3D LMMs	Feb 13, 2025	Inductive BiasVisual Question Answering (VQA)	CodeCode Available
Why do These Match? Explaining the Behavior of Image Similarity Models	May 26, 2019	AttributeGeneral Classification	CodeCode Available
Exploring the Effectiveness of Video Perceptual Representation in Blind Video Quality Assessment	Jul 8, 2022	Video Quality AssessmentVisual Question Answering (VQA)	CodeCode Available
Visual Question Answering: Datasets, Algorithms, and Future Challenges	Oct 5, 2016	Question AnsweringVisual Question Answering	CodeCode Available
Exploring Modulated Detection Transformer as a Tool for Action Recognition in Videos	Sep 21, 2022	Action DetectionAction Recognition	CodeCode Available
Exploring Models and Data for Image Question Answering	May 8, 2015	Image Segmentationobject-detection	CodeCode Available
SlotPi: Physics-informed Object-centric Reasoning Models	Jun 12, 2025	ObjectQuestion Answering	CodeCode Available

Show:10 25 50

← PrevPage 86 of 87Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified