Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 851–900 of 2167 papers

Title	Date	Tasks	Status
Visual question answering based evaluation metrics for text-to-image generation	Nov 15, 2024	Image GenerationImage Manipulation	—Unverified
Is Cognition consistent with Perception? Assessing and Mitigating Multimodal Knowledge Conflicts in Document Understanding	Nov 12, 2024	document understandingOptical Character Recognition (OCR)	—Unverified
SparrowVQE: Visual Question Explanation for Course Content Understanding	Nov 12, 2024	Question AnsweringVisual Question Answering	CodeCode Available
Aligned Vector Quantization for Edge-Cloud Collabrative Vision-Language Models	Nov 8, 2024	QuantizationQuestion Answering	—Unverified
Select2Plan: Training-Free ICL-Based Planning through VQA and Memory Retrieval	Nov 6, 2024	Autonomous NavigationIn-Context Learning	—Unverified
NeurIPS 2023 Competition: Privacy Preserving Federated Learning Document VQA	Nov 6, 2024	Federated LearningLanguage Modelling	—Unverified
Multimodal Commonsense Knowledge Distillation for Visual Question Answering	Nov 5, 2024	Knowledge DistillationQuestion Answering	—Unverified
MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning	Nov 5, 2024	MMEQuestion Answering	—Unverified
One VLM to Keep it Learning: Generation and Balancing for Data-free Continual Visual Question Answering	Nov 4, 2024	Continual LearningQuestion Answering	—Unverified
A Visual Question Answering Method for SAR Ship: Breaking the Requirement for Multimodal Dataset Construction and Model Fine-Tuning	Nov 3, 2024	object-detectionObject Detection	—Unverified
Goal-Oriented Semantic Communication for Wireless Visual Question Answering	Nov 3, 2024	Edge-computingQuestion Answering	—Unverified
Right this way: Can VLMs Guide Us to See More to Answer Questions?	Nov 1, 2024	Question AnsweringVisual Question Answering	CodeCode Available
Aggregate-and-Adapt Natural Language Prompts for Downstream Generalization of CLIP	Oct 31, 2024	Image CaptioningPrompt Learning	—Unverified
SimpsonsVQA: Enhancing Inquiry-Based Learning with a Tailored Dataset	Oct 30, 2024	Question AnsweringVisual Question Answering	—Unverified
Are VLMs Really Blind	Oct 29, 2024	Language ModelingLanguage Modelling	CodeCode Available
Improving Generalization in Visual Reasoning via Self-Ensemble	Oct 28, 2024	Visual Question Answering (VQA)Visual Reasoning	—Unverified
AutoBench-V: Can Large Vision-Language Models Benchmark Themselves?	Oct 28, 2024	BenchmarkingQuestion Answering	CodeCode Available
Attention Overlap Is Responsible for The Entity Missing Problem in Text-to-image Diffusion Models!	Oct 28, 2024	DenoisingQuestion Answering	—Unverified
Few-Shot Multimodal Explanation for Visual Question Answering	Oct 28, 2024	Explainable artificial intelligenceExplainable Artificial Intelligence (XAI)	CodeCode Available
Efficient Bilinear Attention-based Fusion for Medical Visual Question Answering	Oct 28, 2024	Computational EfficiencyDecision Making	—Unverified
R-LLaVA: Improving Med-VQA Understanding through Visual Region of Interest	Oct 27, 2024	Medical Visual Question AnsweringMultiple-choice	—Unverified
GPT-4o System Card	Oct 25, 2024	Multiple-choiceSpatial Reasoning	—Unverified
Which Client is Reliable?: A Reliable and Personalized Prompt-based Federated Learning for Medical Image Question Answering	Oct 23, 2024	Federated LearningMedical Visual Question Answering	—Unverified
Visual Question Answering in Ophthalmology: A Progressive and Practical Perspective	Oct 22, 2024	Question AnsweringVisual Question Answering	—Unverified
Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models	Oct 21, 2024	Instruction Followingobject-detection	—Unverified
LLaVA-Ultra: Large Chinese Language and Vision Assistant for Ultrasound	Oct 19, 2024	Instruction FollowingKnowledge Distillation	—Unverified
ChitroJera: A Regionally Relevant Visual Question Answering Dataset for Bangla	Oct 19, 2024	Question AnsweringVisual Question Answering	—Unverified
SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation	Oct 19, 2024	DiagnosticGPU	CodeCode Available
NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples	Oct 18, 2024	AttributeQuestion Answering	—Unverified
ViConsFormer: Constituting Meaningful Phrases of Scene Texts using Transformer-based Method in Vietnamese Text-based Visual Question Answering	Oct 18, 2024	Question AnsweringVisual Question Answering	CodeCode Available
Latent Image and Video Resolution Prediction using Convolutional Neural Networks	Oct 17, 2024	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified
Help Me Identify: Is an LLM+VQA System All We Need to Identify Visual Concepts?	Oct 17, 2024	AllLanguage Modeling	CodeCode Available
RescueADI: Adaptive Disaster Interpretation in Remote Sensing Images with Autonomous Agents	Oct 17, 2024	Question AnsweringTask Planning	—Unverified
ActionCOMET: A Zero-shot Approach to Learn Image-specific Commonsense Concepts about Actions	Oct 17, 2024	Visual Question Answering (VQA)	CodeCode Available
Difficult Task Yes but Simple Task No: Unveiling the Laziness in Multimodal LLMs	Oct 15, 2024	Image DescriptionMultiple-choice	CodeCode Available
SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding	Oct 15, 2024	Instruction FollowingVisual Question Answering (VQA)	—Unverified
Eliminating the Language Bias for Visual Question Answering with fine-grained Causal Intervention	Oct 14, 2024	Contrastive Learningcounterfactual	—Unverified
Declarative Knowledge Distillation from Large Language Models for Visual Question Answering Datasets	Oct 12, 2024	Knowledge DistillationQuestion Answering	CodeCode Available
Quality Prediction of AI Generated Images and Videos: Emerging Trends and Opportunities	Oct 11, 2024	DenoisingImage Quality Assessment	—Unverified
ViT3D Alignment of LLaMA3: 3D Medical Image Report Generation	Oct 11, 2024	DiagnosticLanguage Modeling	—Unverified
Secure Video Quality Assessment Resisting Adversarial Attacks	Oct 9, 2024	Adversarial DefenseVideo Quality Assessment	—Unverified
Beyond Captioning: Task-Specific Prompting for Improved VLM Performance in Mathematical Reasoning	Oct 8, 2024	Image RetrievalMath	—Unverified
ERVQA: A Dataset to Benchmark the Readiness of Large Vision Language Models in Hospital Environments	Oct 8, 2024	DecoderQuestion Answering	CodeCode Available
TUBench: Benchmarking Large Vision-Language Models on Trustworthiness with Unanswerable Questions	Oct 5, 2024	BenchmarkingHallucination	CodeCode Available
Video Instruction Tuning With Synthetic Data	Oct 3, 2024	3D Question Answering (3D-QA)	—Unverified
LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model	Oct 3, 2024	image-classificationImage Classification	—Unverified
Backdooring Vision-Language Models with Out-Of-Distribution Data	Oct 2, 2024	Image CaptioningImage to text	—Unverified
Why context matters in VQA and Reasoning: Semantic interventions for VLM input modalities	Oct 2, 2024	Question AnsweringVisual Question Answering	—Unverified
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data	Oct 1, 2024	Code GenerationLogical Reasoning	CodeCode Available
FMBench: Benchmarking Fairness in Multimodal Large Language Models on Medical Tasks	Oct 1, 2024	BenchmarkingFairness	—Unverified

Show:10 25 50

← PrevPage 18 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified