Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–675 of 2167 papers

Title	Date	Tasks	Status	Score
Barlow constrained optimization for Visual Question Answering	Mar 7, 2022	Question AnsweringVisual Question Answering	CodeCode Available	5
Multi-Target Embodied Question Answering	Apr 9, 2019	Embodied Question AnsweringNavigate	CodeCode Available	5
Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering	May 21, 2024	DiversityInformation Retrieval	CodeCode Available	5
Analyzing the Behavior of Visual Question Answering Models	Jun 23, 2016	Question AnsweringVisual Question Answering	CodeCode Available	5
Multiview Contrastive Learning for Completely Blind Video Quality Assessment of User Generated Content	Jul 13, 2022	Contrastive LearningOptical Flow Estimation	CodeCode Available	5
AdCare-VLM: Leveraging Large Vision Language Model (LVLM) to Monitor Long-Term Medication Adherence and Care	May 1, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
Multi-Page Document Visual Question Answering using Self-Attention Scoring Mechanism	Apr 29, 2024	document understandingGPU	CodeCode Available	5
Analyzing Modular Approaches for Visual Question Decomposition	Nov 10, 2023	Code GenerationVisual Question Answering (VQA)	CodeCode Available	5
Multiple interaction learning with question-type prior knowledge for constraining answer search space in visual question answering	Sep 23, 2020	Question AnsweringVisual Question Answering	CodeCode Available	5
Multiscale Byte Language Models -- A Hierarchical Architecture for Causal Million-Length Sequence Modeling	Feb 20, 2025	DecoderGPU	CodeCode Available	5
MUREL: Multimodal Relational Reasoning for Visual Question Answering	Feb 25, 2019	Relational ReasoningVisual Question Answering	CodeCode Available	5
NeSyCoCo: A Neuro-Symbolic Concept Composer for Compositional Generalization	Dec 20, 2024	Compositional Generalization (AVG)Novel Concepts	CodeCode Available	5
Robustness through Data Augmentation Loss Consistency	Oct 21, 2021	Multi-domain Dialogue State TrackingVisual Question Answering	CodeCode Available	5
D3: Data Diversity Design for Systematic Generalization in Visual Question Answering	Sep 15, 2023	DiversityQuestion Answering	CodeCode Available	5
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data	Oct 1, 2024	Code GenerationLogical Reasoning	CodeCode Available	5
cViL: Cross-Lingual Training of Vision-Language Models using Knowledge Distillation	Jun 7, 2022	Knowledge DistillationQuestion Answering	CodeCode Available	5
Multimodal Hypothetical Summary for Retrieval-based Multi-image Question Answering	Dec 19, 2024	Contrastive LearningLanguage Modeling	CodeCode Available	5
AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss	May 5, 2021	Question AnsweringVisual Question Answering	CodeCode Available	5
Multimodal Residual Learning for Visual QA	Jun 5, 2016	Multiple-choiceQuestion Answering	CodeCode Available	5
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding	Jun 6, 2016	Phrase GroundingVisual Grounding	CodeCode Available	5
Multimodal Explanations: Justifying Decisions and Pointing to the Evidence	Feb 15, 2018	Activity RecognitionExplainable Models	CodeCode Available	5
Multi-Image Visual Question Answering	Dec 27, 2021	Question AnsweringVisual Question Answering	CodeCode Available	5
12-in-1: Multi-Task Vision and Language Representation Learning	Dec 5, 2019	10-shot image generationImage Retrieval	CodeCode Available	5
Cross-Modal Transferable Image-to-Video Attack on Video Quality Metrics	Jan 14, 2025	Video Quality AssessmentVisual Question Answering (VQA)	CodeCode Available	5
Automatic Generation of Contrast Sets from Scene Graphs: Probing the Compositional Consistency of GQA	Mar 17, 2021	Question AnsweringRelational Reasoning	CodeCode Available	5

Show:10 25 50

← PrevPage 27 of 87Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	InternVL-C	Accuracy	81.2	—	Unverified
10	Lyrics	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified