Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 2167 papers

Title	Date	Tasks	Status	Hype
VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning	Jul 17, 2025	Language ModelingLanguage Modelling	CodeCode Available	0
MGFFD-VLM: Multi-Granularity Prompt Learning for Face Forgery Detection with VLM	Jul 16, 2025	AttributeFace Swapping	—Unverified	0
Describe Anything Model for Visual Question Answering on Text-rich Images	Jul 16, 2025	DescriptiveLanguage Modeling	CodeCode Available	1
Evaluating Attribute Confusion in Fashion Text-to-Image Generation	Jul 9, 2025	Attributecross-modal alignment	—Unverified	0
LinguaMark: Do Multimodal Models Speak Fairly? A Benchmark-Based Evaluation	Jul 9, 2025	Question AnsweringVisual Question Answering	—Unverified	0
Decoupled Seg Tokens Make Stronger Reasoning Video Segmenter and Grounder	Jun 28, 2025	Image SegmentationLarge Language Model	CodeCode Available	1
SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning	Jun 26, 2025	In-Context LearningMedical Visual Question Answering	—Unverified	0
Bridging Video Quality Scoring and Justification via Large Multimodal Models	Jun 26, 2025	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified	0
DrishtiKon: Multi-Granular Visual Grounding for Text-Rich Document Images	Jun 26, 2025	document understandingOptical Character Recognition (OCR)	CodeCode Available	0
FOCUS: Internal MLLM Representations for Efficient Fine-Grained Visual Question Answering	Jun 25, 2025	Question AnsweringVisual Question Answering	—Unverified	0

Show:10 25 50

← PrevPage 1 of 217Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VLAB	Accuracy	0.5	—	Unverified
2	MaMMUT	Accuracy	0.5	—	Unverified
3	MuLTI	Accuracy	0.48	—	Unverified
4	Flamingo	Accuracy	0.47	—	Unverified
5	UMT-L (ViT-L/16)	Accuracy	0.47	—	Unverified
6	InternVideo	Accuracy	0.47	—	Unverified
7	vid-TLDR (UMT-L)	Accuracy	0.47	—	Unverified
8	FrozenBiLM+	Accuracy	0.47	—	Unverified
9	VideoCoCa	Accuracy	0.46	—	Unverified
10	Co-Tokenization	Accuracy	0.46	—	Unverified