Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–450 of 2167 papers

Title	Date	Tasks	Status	Hype	Score
Faithful Multimodal Explanation for Visual Question Answering	Sep 8, 2018	Explanatory Visual Question AnsweringQuestion Answering	CodeCode Available	1	5
CRAFT: A Benchmark for Causal Reasoning About Forces and inTeractions	Dec 8, 2020	counterfactualDescriptive	CodeCode Available	1	5
A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA	Jun 30, 2022	Question AnsweringRetrieval	CodeCode Available	1	5
How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for Vision LLMs	Nov 27, 2023	Adversarial RobustnessVisual Question Answering (VQA)	CodeCode Available	1	5
A Dataset and Baselines for Visual Question Answering on Art	Aug 28, 2020	Question AnsweringQuestion Generation	CodeCode Available	1	5
CrossGET: Cross-Guided Ensemble of Tokens for Accelerating Vision-Language Transformers	May 27, 2023	Image CaptioningImage Retrieval	CodeCode Available	1	5
UniTAB: Unifying Text and Box Outputs for Grounded Vision-Language Modeling	Nov 23, 2021	Image CaptioningImage Description	CodeCode Available	1	5
AMD-Hummingbird: Towards an Efficient Text-to-Video Model	Mar 24, 2025	Computational EfficiencyVideo Generation	CodeCode Available	1	5
Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering	Jul 26, 2022	Causal InferenceQuestion Answering	CodeCode Available	1	5
Dynamic Language Binding in Relational Visual Reasoning	Apr 30, 2020	ObjectQuestion Answering	CodeCode Available	1	5
OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge	May 31, 2019	object-detectionObject Detection	CodeCode Available	1	5
LXMERT: Learning Cross-Modality Encoder Representations from Transformers	Aug 20, 2019	Language ModelingLanguage Modelling	CodeCode Available	1	5
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation	Jan 6, 2025	Language Model EvaluationLanguage Modeling	CodeCode Available	1	5
Panoramic Vision Transformer for Saliency Detection in 360° Videos	Sep 19, 2022	Saliency DetectionSaliency Prediction	CodeCode Available	1	5
MAPL: Parameter-Efficient Adaptation of Unimodal Pre-Trained Models for Vision-Language Few-Shot Prompting	Oct 13, 2022	Image CaptioningQuestion Answering	CodeCode Available	1	5
In Defense of Grid Features for Visual Question Answering	Jan 10, 2020	Image CaptioningQuestion Answering	CodeCode Available	1	5
Dual-Key Multimodal Backdoors for Visual Question Answering	Dec 14, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1	5
IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning	Oct 25, 2021	Arithmetic ReasoningMathematical Question Answering	CodeCode Available	1	5
Analysis of Video Quality Datasets via Design of Minimalistic Video Quality Models	Jul 26, 2023	Image Quality AssessmentNo-Reference Image Quality Assessment	CodeCode Available	1	5
Localized Questions in Medical Visual Question Answering	Jul 3, 2023	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	1	5
IllusionVQA: A Challenging Optical Illusion Dataset for Vision Language Models	Mar 23, 2024	Common Sense ReasoningIn-Context Learning	CodeCode Available	1	5
PEVL: Position-enhanced Pre-training and Prompt Tuning for Vision-language Models	May 23, 2022	Language ModelingLanguage Modelling	CodeCode Available	1	5
Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?	Feb 23, 2023	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1	5
A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge	Jun 3, 2022	Question AnsweringVisual Question Answering	CodeCode Available	1	5
PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering	May 17, 2023	BenchmarkingDiagnostic	CodeCode Available	1	5
LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular Supervision for Visual Question Answering	Nov 21, 2020	Answer GenerationQuestion Answering	CodeCode Available	1	5
Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts	Nov 16, 2024	Mixture-of-ExpertsOptical Character Recognition (OCR)	CodeCode Available	1	5
Improving Selective Visual Question Answering by Learning from Your Peers	Jun 14, 2023	Question AnsweringVisual Question Answering	CodeCode Available	1	5
Can I Trust Your Answer? Visually Grounded Video Question Answering	Sep 4, 2023	Grounded Video Question AnsweringQuestion Answering	CodeCode Available	1	5
Prismer: A Vision-Language Model with Multi-Task Experts	Mar 4, 2023	Few-Shot LearningImage Captioning	CodeCode Available	1	5
DualVGR: A Dual-Visual Graph Reasoning Unit for Video Question Answering	Jul 10, 2021	Graph AttentionQuestion Answering	CodeCode Available	1	5
Calibrating Concepts and Operations: Towards Symbolic Reasoning on Real Images	Oct 1, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1	5
Does Vision-and-Language Pretraining Improve Lexical Grounding?	Sep 21, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1	5
DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback	Oct 8, 2024	MathSequential Decision Making	CodeCode Available	1	5
DocVQA: A Dataset for VQA on Document Images	Jul 1, 2020	Question AnsweringReading Comprehension	CodeCode Available	1	5
ProTo: Program-Guided Transformer for Program-Guided Tasks	Oct 2, 2021	Decision MakingLearning to Execute	CodeCode Available	1	5
Answer Mining from a Pool of Images: Towards Retrieval-Based Visual Question Answering	Jun 29, 2023	Answer GenerationQuestion Answering	CodeCode Available	1	5
Instruction-Guided Visual Masking	May 30, 2024	Instruction FollowingVisual Grounding	CodeCode Available	1	5
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content	Oct 14, 2024	Visual Question Answering (VQA)World Knowledge	CodeCode Available	1	5
Light-VQA: A Multi-Dimensional Quality Assessment Model for Low-Light Video Enhancement	May 16, 2023	Video EnhancementVideo Quality Assessment	CodeCode Available	1	5
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks	Dec 21, 2023	Image RetrievalImage-to-Text Retrieval	CodeCode Available	1	5
Debiased Visual Question Answering from Feature and Sample Perspectives	Dec 1, 2021	Bias DetectionQuestion Answering	CodeCode Available	1	5
Debiasing Multimodal Models via Causal Information Minimization	Nov 28, 2023	Visual Question Answering (VQA)	CodeCode Available	1	5
Declaration-based Prompt Tuning for Visual Question Answering	May 5, 2022	Image-text matchingLanguage Modeling	CodeCode Available	1	5
DocFormerv2: Local Features for Document Understanding	Jun 2, 2023	Decoderdocument understanding	CodeCode Available	1	5
Light-VQA+: A Video Quality Assessment Model for Exposure Correction with Vision-Language Guidance	May 6, 2024	Exposure CorrectionVideo Enhancement	CodeCode Available	1	5
Visual Grounding Methods for VQA are Working for the Wrong Reasons!	Apr 12, 2020	Question AnsweringVisual Grounding	CodeCode Available	1	5
ReLaX-VQA: Residual Fragment and Layer Stack Extraction for Enhancing Video Quality Assessment	Jul 16, 2024	Optical Flow EstimationVideo Compression	CodeCode Available	1	5
Decoupled Seg Tokens Make Stronger Reasoning Video Segmenter and Grounder	Jun 28, 2025	Image SegmentationLarge Language Model	CodeCode Available	1	5
Distilled Dual-Encoder Model for Vision-Language Understanding	Dec 16, 2021	Image to textmodel	CodeCode Available	1	5

Show:10 25 50

← PrevPage 9 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified