Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 2167 papers

Title	Date	Tasks	Status	Hype
VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning	Jul 17, 2025	Language ModelingLanguage Modelling	CodeCode Available	0
MGFFD-VLM: Multi-Granularity Prompt Learning for Face Forgery Detection with VLM	Jul 16, 2025	AttributeFace Swapping	—Unverified	0
Describe Anything Model for Visual Question Answering on Text-rich Images	Jul 16, 2025	DescriptiveLanguage Modeling	CodeCode Available	1
Evaluating Attribute Confusion in Fashion Text-to-Image Generation	Jul 9, 2025	Attributecross-modal alignment	—Unverified	0
LinguaMark: Do Multimodal Models Speak Fairly? A Benchmark-Based Evaluation	Jul 9, 2025	Question AnsweringVisual Question Answering	—Unverified	0
Decoupled Seg Tokens Make Stronger Reasoning Video Segmenter and Grounder	Jun 28, 2025	Image SegmentationLarge Language Model	CodeCode Available	1
SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning	Jun 26, 2025	In-Context LearningMedical Visual Question Answering	—Unverified	0
Bridging Video Quality Scoring and Justification via Large Multimodal Models	Jun 26, 2025	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified	0
DrishtiKon: Multi-Granular Visual Grounding for Text-Rich Document Images	Jun 26, 2025	document understandingOptical Character Recognition (OCR)	CodeCode Available	0
FOCUS: Internal MLLM Representations for Efficient Fine-Grained Visual Question Answering	Jun 25, 2025	Question AnsweringVisual Question Answering	—Unverified	0

Show:10 25 50

← PrevPage 1 of 217Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Gemini Ultra (pixel only)	ANLS	80.3	—	Unverified
2	SMoLA-PaLI-X Specialist	ANLS	66.2	—	Unverified
3	ScreenAI 5B (4.62 B params, w/ OCR)	ANLS	65.9	—	Unverified
4	SMoLA-PaLI-X Generalist	ANLS	65.6	—	Unverified
5	UDOP (aux)	ANLS	63	—	Unverified
6	PaLI-3 (w/ OCR)	ANLS	62.4	—	Unverified
7	TILT-Large	ANLS	61.2	—	Unverified
8	PaLI-3	ANLS	57.8	—	Unverified
9	ChatGPT 3.5 with LAPDoc Prompt (SpatialFormat)	ANLS	54.9	—	Unverified
10	PaLI-X (Single-task FT w/ OCR)	ANLS	54.8	—	Unverified