Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1601–1650 of 2167 papers

Title	Date	Tasks	Status
Instruction-augmented Multimodal Alignment for Image-Text and Element Matching	Apr 16, 2025	Image AugmentationImage Generation	—Unverified
Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models	Mar 8, 2025	Caption GenerationQuestion Answering	—Unverified
Integrating Knowledge and Reasoning in Image Understanding	Jun 24, 2019	Object RecognitionQuestion Answering	—Unverified
Interactive Attention AI to translate low light photos to captions for night scene understanding in women safety	Jan 4, 2022	DecoderDeep Learning	—Unverified
Interactive Visual Task Learning for Robots	Dec 20, 2023	Continual LearningNovel Concepts	—Unverified
Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering	May 24, 2023	Question AnsweringVisual Question Answering	—Unverified
Interpretable Counting for Visual Question Answering	Dec 23, 2017	Question AnsweringVisual Question Answering	—Unverified
Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models	Jan 3, 2025	Binary ClassificationFace Anti-Spoofing	—Unverified
Interpretable Medical Image Visual Question Answering via Multi-Modal Relationship Graph Learning	Feb 19, 2023	Graph LearningMedical Visual Question Answering	—Unverified
Interpretable Neural Computation for Real-World Compositional Visual Question Answering	Oct 10, 2020	Question AnsweringVisual Question Answering	—Unverified
Interpretable Visual Question Answering Referring to Outside Knowledge	Mar 8, 2023	DiversityImage Captioning	—Unverified
Interpretable Visual Question Answering by Reasoning on Dependency Trees	Sep 6, 2018	Question Answeringvalid	—Unverified
Interpretable Visual Question Answering by Visual Grounding from Attention Supervision Mining	Aug 1, 2018	Question AnsweringVisual Grounding	—Unverified
Interpretable Visual Question Answering via Reasoning Supervision	Sep 7, 2023	Common Sense ReasoningQuestion Answering	—Unverified
Interpretable Visual Reasoning via Probabilistic Formulation under Natural Supervision	Aug 1, 2020	Question AnsweringVisual Question Answering	—Unverified
Inverse Visual Question Answering: A New Benchmark and VQA Diagnosis Tool	Mar 16, 2018	Question AnsweringReinforcement Learning	—Unverified
Inverse Visual Question Answering with Multi-Level Attentions	Sep 17, 2019	Question AnsweringVisual Question Answering	—Unverified
Investigating Biases in Textual Entailment Datasets	Jun 23, 2019	BIG-bench Machine LearningNatural Language Inference	—Unverified
Investigating layer-selective transfer learning of QAOA parameters for Max-Cut problem	Dec 30, 2024	Combinatorial OptimizationTransfer Learning	—Unverified
ISAAQ -- Mastering Textbook Questions with Pre-trained Transformers and Bottom-Up and Top-Down Attention	Oct 1, 2020	Multiple-choiceQuestion Answering	—Unverified
ISAAQ - Mastering Textbook Questions with Pre-trained Transformers and Bottom-Up and Top-Down Attention	Nov 1, 2020	Multiple-choiceQuestion Answering	—Unverified
Is Cognition consistent with Perception? Assessing and Mitigating Multimodal Knowledge Conflicts in Document Understanding	Nov 12, 2024	document understandingOptical Character Recognition (OCR)	—Unverified
Is GPT-3 all you need for Visual Question Answering in Cultural Heritage?	Jul 25, 2022	AllQuestion Answering	—Unverified
Iterated learning for emergent systematicity in VQA	May 3, 2021	Question AnsweringSystematic Generalization	—Unverified
It Takes Two to Tango: Towards Theory of AI's Mind	Apr 3, 2017	AttributeQuestion Answering	—Unverified
iVQA: Inverse Visual Question Answering	Oct 10, 2017	Question AnsweringQuestion Generation	—Unverified
Jaeger: A Concatenation-Based Multi-Transformer VQA Model	Oct 11, 2023	Dimensionality Reductionmodel	—Unverified
Joint Image Captioning and Question Answering	May 22, 2018	Image CaptioningQuestion Answering	—Unverified
Joint learning of object graph and relation graph for visual question answering	May 9, 2022	AttributeGraph Neural Network	—Unverified
Jointly Learning Truth-Conditional Denotations and Groundings using Parallel Attention	Apr 14, 2021	Question AnsweringVisual Question Answering	—Unverified
JTD-UAV: MLLM-Enhanced Joint Tracking and Description Framework for Anti-UAV Systems	Jan 1, 2025	Question AnsweringVisual Question Answering	—Unverified
`Just because you are right, doesn't mean I am wrong': Overcoming a bottleneck in development and evaluation of Open-Ended VQA tasks	Apr 1, 2021	Question AnsweringVisual Question Answering	—Unverified
KAT: A Knowledge Augmented Transformer for Vision-and-Language	Jan 16, 2022	Answer GenerationDecoder	—Unverified
Kernel Pooling for Convolutional Neural Networks	Jul 1, 2017	Face RecognitionFine-Grained Visual Categorization	—Unverified
Generating and Evaluating Explanations of Attended and Error-Inducing Input Regions for VQA Models	Mar 26, 2021	Question AnsweringVisual Question Answering	—Unverified
Knowing Where to Look? Analysis on Attention of Visual Question Answering System	Oct 9, 2018	Question AnsweringVisual Question Answering	—Unverified
KnowIT VQA: Answering Knowledge-Based Questions about Videos	Oct 23, 2019	Question AnsweringVideo Question Answering	—Unverified
Knowledge Acquisition for Visual Question Answering via Iterative Querying	Jul 1, 2017	Question AnsweringVisual Question Answering	—Unverified
Knowledge-Based Counterfactual Queries for Visual Question Answering	Mar 5, 2023	counterfactualDecision Making	—Unverified
Knowledge-Based Visual Question Answering in Videos	Apr 17, 2020	Question AnsweringVideo Question Answering	—Unverified
Knowledge Condensation and Reasoning for Knowledge-based VQA	Mar 15, 2024	Question AnsweringReading Comprehension	—Unverified
Knowledge Detection by Relevant Question and Image Attributes in Visual Question Answering	Jun 8, 2023	Question AnsweringRetrieval	—Unverified
KNVQA: A Benchmark for evaluation knowledge-based VQA	Nov 21, 2023	HallucinationObject Hallucination	—Unverified
KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain Knowledge-Based VQA	Dec 20, 2020	Visual Question Answering (VQA)	—Unverified
KVL-BERT: Knowledge Enhanced Visual-and-Linguistic BERT for Visual Commonsense Reasoning	Dec 13, 2020	SentenceVisual Commonsense Reasoning	—Unverified
KVQA: Knowledge-Aware Visual Question Answering	Jul 17, 2019	Knowledge GraphsQuestion Answering	—Unverified
Language bias in Visual Question Answering: A Survey and Taxonomy	Nov 16, 2021	Question AnsweringVisual Question Answering	—Unverified
Language Features Matter: Effective Language Representations for Vision-Language Tasks	Aug 17, 2019	Image CaptioningLanguage Modelling	—Unverified
Language Models are General-Purpose Interfaces	Jun 13, 2022	Causal Language ModelingFew-Shot Learning	—Unverified
LAPDoc: Layout-Aware Prompting for Documents	Feb 15, 2024	document understandingKey Information Extraction	—Unverified

Show:10 25 50

← PrevPage 33 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified