Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2101–2150 of 2167 papers

Title	Date	Tasks	Status
Focal Visual-Text Attention for Visual Question Answering	Jun 5, 2018	Memex Question AnsweringQuestion Answering	CodeCode Available
Focal Visual-Text Attention for Memex Question Answering	Dec 14, 2018	Memex Question AnsweringQuestion Answering	CodeCode Available
Context-VQA: Towards Context-Aware and Purposeful Visual Question Answering	Jul 28, 2023	Question AnsweringVisual Question Answering	CodeCode Available
A Diagram Is Worth A Dozen Images	Mar 24, 2016	Visual Question Answering (VQA)	CodeCode Available
A Simple Loss Function for Improving the Convergence and Accuracy of Visual Question Answering Models	Aug 2, 2017	Question AnsweringVisual Question Answering	CodeCode Available
UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models	Oct 17, 2023	AttributeQuestion Answering	CodeCode Available
Contextual Dropout: An Efficient Sample-Dependent Dropout Module	Mar 6, 2021	image-classificationImage Classification	CodeCode Available
A Simple Baseline for Knowledge-Based Visual Question Answering	Oct 20, 2023	In-Context LearningQuestion Answering	CodeCode Available
Select, Substitute, Search: A New Benchmark for Knowledge-Augmented Visual Question Answering	Mar 9, 2021	Optical Character Recognition (OCR)Question Answering	CodeCode Available
Self-Critical Reasoning for Robust Visual Question Answering	May 24, 2019	Question AnsweringVisual Question Answering	CodeCode Available
Adaptively Clustering Neighbor Elements for Image-Text Generation	Jan 5, 2023	ClusteringDecoder	CodeCode Available
Zero-shot Translation of Attention Patterns in VQA Models to Natural Language	Nov 8, 2023	Image CaptioningLanguage Modeling	CodeCode Available
Filling the Image Information Gap for VQA: Prompting Large Language Models to Proactively Ask Questions	Nov 20, 2023	Question AnsweringVisual Question Answering	CodeCode Available
Uncovering the Full Potential of Visual Grounding Methods in VQA	Jan 15, 2024	Question AnsweringVisual Grounding	CodeCode Available
Self Supervision for Attention Networks	Jan 6, 2021	image-classificationImage Classification	CodeCode Available
ArtQuest: Countering Hidden Language Biases in ArtVQA	Jan 4, 2024	Question AnsweringVisual Question Answering	CodeCode Available
Analyzing Modular Approaches for Visual Question Decomposition	Nov 10, 2023	Code GenerationVisual Question Answering (VQA)	CodeCode Available
Semantically Distributed Robust Optimization for Vision-and-Language Inference	Oct 14, 2021	Data AugmentationNatural Language Inference	CodeCode Available
Semantically Equivalent Adversarial Rules for Debugging NLP models	Jul 1, 2018	Data AugmentationQuestion Answering	CodeCode Available
Adaptive loose optimization for robust question answering	May 6, 2023	Extractive Question-AnsweringMachine Reading Comprehension	CodeCode Available
FigureQA: An Annotated Figure Dataset for Visual Reasoning	Oct 19, 2017	BIG-bench Machine LearningChart Question Answering	CodeCode Available
SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation	Oct 19, 2024	DiagnosticGPU	CodeCode Available
Understanding Attention for Vision-and-Language Tasks	Aug 17, 2022	Image GenerationImage Retrieval	CodeCode Available
Understanding Guided Image Captioning Performance across Domains	Dec 4, 2020	DescriptiveImage Captioning	CodeCode Available
Separate and Locate: Rethink the Text in Text-based Visual Question Answering	Aug 31, 2023	Optical Character Recognition (OCR)Position	CodeCode Available
Few-Shot Multimodal Explanation for Visual Question Answering	Oct 28, 2024	Explainable artificial intelligenceExplainable Artificial Intelligence (XAI)	CodeCode Available
An Entropy Clustering Approach for Assessing Visual Question Difficulty	Apr 12, 2020	ClusteringQuestion Answering	CodeCode Available
Adapting Lightweight Vision Language Models for Radiological Visual Question Answering	Jun 17, 2025	DiagnosticQuestion Answering	CodeCode Available
ShapeWorld - A new test methodology for multimodal language understanding	Apr 14, 2017	Multimodal Deep LearningVisual Question Answering	CodeCode Available
Visual Question Answering: A Survey of Methods and Datasets	Jul 20, 2016	General KnowledgeSurvey	CodeCode Available
Federated Document Visual Question Answering: A Pilot Study	May 10, 2024	Federated LearningQuestion Answering	CodeCode Available
Show, Ask, Attend, and Answer: A Strong Baseline For Visual Question Answering	Apr 11, 2017	Visual Question AnsweringVisual Question Answering (VQA)	CodeCode Available
Understanding Multimodal LLMs: the Mechanistic Interpretability of Llava in Visual Question Answering	Nov 17, 2024	HallucinationIn-Context Learning	CodeCode Available
Siamese Tracking with Lingual Object Constraints	Nov 23, 2020	ObjectObject Tracking	CodeCode Available
Why Did the Chicken Cross the Road? Rephrasing and Analyzing Ambiguous Questions in VQA	Nov 14, 2022	Question GenerationQuestion-Generation	CodeCode Available
Simple Baseline for Visual Question Answering	Dec 7, 2015	Visual Question AnsweringVisual Question Answering (VQA)	CodeCode Available
Compressing And Debiasing Vision-Language Pre-Trained Models for Visual Question Answering	Oct 26, 2022	Question AnsweringVisual Question Answering	CodeCode Available
ActivityNet-QA: A Dataset for Understanding Complex Web Videos via Question Answering	Jun 6, 2019	Question AnsweringVideo Question Answering	CodeCode Available
ActionCOMET: A Zero-shot Approach to Learn Image-specific Commonsense Concepts about Actions	Oct 17, 2024	Visual Question Answering (VQA)	CodeCode Available
Factor Graph Attention	Apr 11, 2019	Graph AttentionQuestion Answering	CodeCode Available
12-in-1: Multi-Task Vision and Language Representation Learning	Dec 5, 2019	10-shot image generationImage Retrieval	CodeCode Available
VQA Therapy: Exploring Answer Differences by Visually Grounding Answers	Aug 21, 2023	Question AnsweringVisual Question Answering	CodeCode Available
Single-Stream Multi-Level Alignment for Vision-Language Pretraining	Mar 27, 2022	Image-text RetrievalQuestion Answering	CodeCode Available
Exploring the Potential of Encoder-free Architectures in 3D LMMs	Feb 13, 2025	Inductive BiasVisual Question Answering (VQA)	CodeCode Available
Why do These Match? Explaining the Behavior of Image Similarity Models	May 26, 2019	AttributeGeneral Classification	CodeCode Available
Exploring the Effectiveness of Video Perceptual Representation in Blind Video Quality Assessment	Jul 8, 2022	Video Quality AssessmentVisual Question Answering (VQA)	CodeCode Available
Visual Question Answering: Datasets, Algorithms, and Future Challenges	Oct 5, 2016	Question AnsweringVisual Question Answering	CodeCode Available
Exploring Modulated Detection Transformer as a Tool for Action Recognition in Videos	Sep 21, 2022	Action DetectionAction Recognition	CodeCode Available
Exploring Models and Data for Image Question Answering	May 8, 2015	Image Segmentationobject-detection	CodeCode Available
SlotPi: Physics-informed Object-centric Reasoning Models	Jun 12, 2025	ObjectQuestion Answering	CodeCode Available

Show:10 25 50

← PrevPage 43 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified