Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2026–2050 of 2167 papers

Title	Date	Tasks	Status
Automatic Generation of Contrast Sets from Scene Graphs: Probing the Compositional Consistency of GQA	Mar 17, 2021	Question AnsweringRelational Reasoning	CodeCode Available
Cross-Modal Contrastive Learning for Robust Reasoning in VQA	Nov 21, 2022	Contrastive LearningQuestion Answering	CodeCode Available
Cross-Lingual Text-Rich Visual Comprehension: An Information Theory Perspective	Dec 23, 2024	Question AnsweringVisual Question Answering	CodeCode Available
VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning	Jul 17, 2025	Language ModelingLanguage Modelling	CodeCode Available
Help Me Identify: Is an LLM+VQA System All We Need to Identify Visual Concepts?	Oct 17, 2024	AllLanguage Modeling	CodeCode Available
VL-InterpreT: An Interactive Visualization Tool for Interpreting Vision-Language Transformers	Mar 30, 2022	Question AnsweringVisual Commonsense Reasoning	CodeCode Available
CRIPP-VQA: Counterfactual Reasoning about Implicit Physical Properties via Video Question Answering	Nov 7, 2022	Add - POAdd - PQ	CodeCode Available
AutoBench-V: Can Large Vision-Language Models Benchmark Themselves?	Oct 28, 2024	BenchmarkingQuestion Answering	CodeCode Available
HaVQA: A Dataset for Visual Question Answering and Multimodal Research in Hausa Language	May 28, 2023	Machine TranslationMultimodal Machine Translation	CodeCode Available
An Improved Attention for Visual Question Answering	Nov 4, 2020	DecoderQuestion Answering	CodeCode Available
Towards Visual Question Answering on Pathology Images	Aug 1, 2021	Decision MakingQuestion Answering	CodeCode Available
REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory	Dec 10, 2022	Image CaptioningLanguage Modeling	CodeCode Available
HALLUCINOGEN: A Benchmark for Evaluating Object Hallucination in Large Visual-Language Models	Dec 29, 2024	HallucinationObject	CodeCode Available
Counting Everyday Objects in Everyday Scenes	Apr 12, 2016	ObjectObject Counting	CodeCode Available
MoVie: Revisiting Modulated Convolutions for Visual Counting and Beyond	Apr 24, 2020	Object CountingQuestion Answering	CodeCode Available
A Unified Hallucination Mitigation Framework for Large Vision-Language Models	Sep 24, 2024	HallucinationQuestion Answering	CodeCode Available
Revisiting Video Quality Assessment from the Perspective of Generalization	Sep 23, 2024	Image Quality AssessmentVideo Quality Assessment	CodeCode Available
Revisiting Visual Question Answering Baselines	Jun 27, 2016	Binary ClassificationMultiple-choice	CodeCode Available
Hallucination Benchmark in Medical Visual Question Answering	Jan 11, 2024	HallucinationMedical Visual Question Answering	CodeCode Available
HalLoc: Token-level Localization of Hallucinations for Vision Language Models	Jun 12, 2025	HallucinationImage Captioning	CodeCode Available
Copy-Move Forgery Detection and Question Answering for Remote Sensing Image	Dec 3, 2024	Question AnsweringVisual Question Answering	CodeCode Available
REXUP: I REason, I EXtract, I UPdate with Structured Compositional Reasoning for Visual Question Answering	Jul 27, 2020	Question AnsweringVisual Question Answering	CodeCode Available
Augmenting Visual Question Answering with Semantic Frame Information in a Multitask Learning Approach	Jan 31, 2020	Question AnsweringVisual Question Answering	CodeCode Available
Right this way: Can VLMs Guide Us to See More to Answer Questions?	Nov 1, 2024	Question AnsweringVisual Question Answering	CodeCode Available
Visual Choice of Plausible Alternatives: An Evaluation of Image-based Commonsense Causal Reasoning	May 1, 2018	Commonsense Causal ReasoningImage Captioning	CodeCode Available

Show:10 25 50

← PrevPage 82 of 87Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified