Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 801–850 of 2167 papers

Title	Date	Tasks	Status
HAUR: Human Annotation Understanding and Recognition Through Text-Heavy Images	Dec 24, 2024	Optical Character Recognition (OCR)Question Answering	—Unverified
LININ: Logic Integrated Neural Inference Network for Explanatory Visual Question Answering	Dec 24, 2024	Explanatory Visual Question AnsweringMultimodal Reasoning	CodeCode Available
Multi-Agents Based on Large Language Models for Knowledge-based Visual Question Answering	Dec 24, 2024	Question AnsweringVisual Question Answering	—Unverified
TextMatch: Enhancing Image-Text Consistency Through Multimodal Optimization	Dec 24, 2024	In-Context LearningQuestion Answering	—Unverified
Cross-Lingual Text-Rich Visual Comprehension: An Information Theory Perspective	Dec 23, 2024	Question AnsweringVisual Question Answering	CodeCode Available
Prompting Large Language Models with Rationale Heuristics for Knowledge-based Visual Question Answering	Dec 22, 2024	Question AnsweringVisual Question Answering	—Unverified
Application of Multimodal Large Language Models in Autonomous Driving	Dec 21, 2024	Autonomous DrivingDecision Making	—Unverified
InstructOCR: Instruction Boosting Scene Text Spotting	Dec 20, 2024	Optical Character Recognition (OCR)Text Spotting	CodeCode Available
NeSyCoCo: A Neuro-Symbolic Concept Composer for Compositional Generalization	Dec 20, 2024	Compositional Generalization (AVG)Novel Concepts	CodeCode Available
Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage	Dec 20, 2024	AttributeBenchmarking	—Unverified
Multimodal Hypothetical Summary for Retrieval-based Multi-image Question Answering	Dec 19, 2024	Contrastive LearningLanguage Modeling	CodeCode Available
OnlineVPO: Align Video Diffusion Model with Online Video-Centric Preference Optimization	Dec 19, 2024	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified
What makes a good metric? Evaluating automatic metrics for text-to-image consistency	Dec 18, 2024	SensitivityVisual Question Answering (VQA)	—Unverified
Optimizing Vision-Language Interactions Through Decoder-Only Models	Dec 14, 2024	DecoderImage Captioning	—Unverified
Selective State Space Memory for Large Vision-Language Models	Dec 13, 2024	MambaVisual Question Answering (VQA)	—Unverified
VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation	Dec 13, 2024	Instruction FollowingQuestion Answering	—Unverified
Illusory VQA: Benchmarking and Enhancing Multimodal Models on Visual Illusions	Dec 11, 2024	BenchmarkingQuestion Answering	CodeCode Available
Can We Generate Visual Programs Without Prompting LLMs?	Dec 11, 2024	Data AugmentationQuestion Answering	—Unverified
Verb Mirage: Unveiling and Assessing Verb Concept Hallucinations in Multimodal Large Language Models	Dec 6, 2024	HallucinationOptical Character Recognition (OCR)	—Unverified
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling	Dec 6, 2024	document understandingHallucination	—Unverified
T2I-FactualBench: Benchmarking the Factuality of Text-to-Image Models with Knowledge-Intensive Concepts	Dec 5, 2024	BenchmarkingImage Generation	—Unverified
AdvDreamer Unveils: Are Vision-Language Models Truly Ready for Real-World 3D Variations?	Dec 4, 2024	BenchmarkingVisual Question Answering (VQA)	—Unverified
Copy-Move Forgery Detection and Question Answering for Remote Sensing Image	Dec 3, 2024	Question AnsweringVisual Question Answering	CodeCode Available
WSI-LLaVA: A Multimodal Large Language Model for Whole Slide Image	Dec 3, 2024	DiagnosticLanguage Modeling	—Unverified
CEGI: Measuring the trade-off between efficiency and carbon emissions for SLMs and VLMs	Dec 3, 2024	Image CaptioningQuantization	—Unverified
DLaVA: Document Language and Vision Assistant for Answer Localization with Enhanced Interpretability and Trustworthiness	Nov 29, 2024	Optical Character Recognition (OCR)Question Answering	CodeCode Available
Perception Test 2024: Challenge Summary and a Novel Hour-Long VideoQA Benchmark	Nov 29, 2024	BenchmarkingGrounded Video Question Answering	—Unverified
SURE-VQA: Systematic Understanding of Robustness Evaluation in Medical VQA Tasks	Nov 29, 2024	Question AnsweringVisual Question Answering	CodeCode Available
Sparse Attention Vectors: Generative Multimodal Model Features Are Discriminative Vision-Language Classifiers	Nov 28, 2024	Image Captioningimage-classification	—Unverified
ElectroVizQA: How well do Multi-modal LLMs perform in Electronics Visual Question Answering?	Nov 27, 2024	Question AnsweringVisual Question Answering	—Unverified
Natural Language Understanding and Inference with MLLM in Visual Question Answering: A Survey	Nov 26, 2024	Natural Language UnderstandingQuestion Answering	—Unverified
Task Progressive Curriculum Learning for Robust Visual Question Answering	Nov 26, 2024	Data AugmentationEnsemble Learning	—Unverified
Video-Text Dataset Construction from Multi-AI Feedback: Promoting Weak-to-Strong Preference Learning for Video Large Language Models	Nov 25, 2024	Visual Question Answering (VQA)	—Unverified
GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis	Nov 25, 2024	Medical Visual Question AnsweringMultiple-choice	—Unverified
Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ Documents	Nov 23, 2024	Question AnsweringRAG	CodeCode Available
ReWind: Understanding Long Videos with Instructed Learnable Memory	Nov 23, 2024	Large Language ModelQuestion Answering	—Unverified
Enhancing Instruction-Following Capability of Visual-Language Models by Reducing Image Redundancy	Nov 23, 2024	Instruction FollowingMME	—Unverified
Benchmarking Multimodal Models for Ukrainian Language Understanding Across Academic and Cultural Domains	Nov 22, 2024	BenchmarkingCaption Generation	—Unverified
mR^2AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA	Nov 22, 2024	RAGRetrieval	—Unverified
Visual Contexts Clarify Ambiguous Expressions: A Benchmark Dataset	Nov 21, 2024	Question AnsweringVisual Grounding	CodeCode Available
Uni-Mlip: Unified Self-supervision for Medical Vision Language Pre-training	Nov 20, 2024	Contrastive Learningimage-classification	—Unverified
Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving	Nov 20, 2024	Autonomous DrivingMultimodal Reasoning	—Unverified
Learning to Reason Iteratively and Parallelly for Complex Visual Reasoning Scenarios	Nov 20, 2024	Question AnsweringVisual Question Answering (VQA)	—Unverified
LaVida Drive: Vision-Text Interaction VLM for Autonomous Driving with Token Selection, Recovery and Enhancement	Nov 20, 2024	Autonomous DrivingComputational Efficiency	—Unverified
Med-2E3: A 2D-Enhanced 3D Medical Multimodal Large Language Model	Nov 19, 2024	Language ModelingLanguage Modelling	—Unverified
Value-Spectrum: Quantifying Preferences of Vision-Language Models via Value Decomposition in Social Media Contexts	Nov 18, 2024	BenchmarkingMultimodal Large Language Model	CodeCode Available
Memory-Augmented Multimodal LLMs for Surgical VQA via Self-Contained Inquiry	Nov 17, 2024	Question AnsweringScene Understanding	—Unverified
Understanding Multimodal LLMs: the Mechanistic Interpretability of Llava in Visual Question Answering	Nov 17, 2024	HallucinationIn-Context Learning	CodeCode Available
F^3OCUS -- Federated Finetuning of Vision-Language Foundation Models with Optimal Client Layer Updating Strategy via Multi-objective Meta-Heuristics	Nov 17, 2024	DiversityFederated Learning	—Unverified
A Comprehensive Survey on Visual Question Answering Datasets and Algorithms	Nov 17, 2024	DiagnosticMiscellaneous	—Unverified

Show:10 25 50

← PrevPage 17 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified