Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 2167 papers

Title	Date	Tasks	Status	Hype
V-RoAst: Visual Road Assessment. Can VLM be a Road Safety Assessor Using the iRAP Standard?	Aug 20, 2024	Few-Shot LearningIn-Context Learning	CodeCode Available	1
FFAA: Multimodal Large Language Model based Explainable Open-World Face Forgery Analysis Assistant	Aug 19, 2024	DescriptiveFace Swapping	CodeCode Available	1
Visual Agents as Fast and Slow Thinkers	Aug 16, 2024	Question AnsweringReasoning Segmentation	CodeCode Available	1
Surgical-VQLA++: Adversarial Contrastive Learning for Calibrated Robust Visual Question-Localized Answering in Robotic Surgery	Aug 9, 2024	Contrastive LearningMedical Visual Question Answering	CodeCode Available	1
Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark	Jul 18, 2024	GPUImage Retrieval	CodeCode Available	1
ReLaX-VQA: Residual Fragment and Layer Stack Extraction for Enhancing Video Quality Assessment	Jul 16, 2024	Optical Flow EstimationVideo Compression	CodeCode Available	1
FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding	Jul 6, 2024	Optical Character Recognition (OCR)Visual Question Answering (VQA)	CodeCode Available	1
From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis	Jun 28, 2024	Visual Question Answering (VQA)Visual Reasoning	CodeCode Available	1
STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering	Jun 28, 2024	Medical DiagnosisMedical Question Answering	CodeCode Available	1
LIVE: Learnable In-Context Vector for Visual Question Answering	Jun 19, 2024	In-Context LearningQuestion Answering	CodeCode Available	1
MMNeuron: Discovering Neuron-Level Domain-Specific Interpretation in Multimodal Large Language Model	Jun 17, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
FoodieQA: A Multimodal Dataset for Fine-Grained Understanding of Chinese Food Culture	Jun 16, 2024	DiversityMultiple-choice	CodeCode Available	1
Vision-Language Models Meet Meteorology: Developing Models for Extreme Weather Events Detection with Heatmaps	Jun 14, 2024	Question AnsweringVisual Question Answering	CodeCode Available	1
Worse than Random? An Embarrassingly Simple Probing Evaluation of Large Multimodal Models in Medical VQA	May 30, 2024	DiagnosticMedical Diagnosis	CodeCode Available	1
Instruction-Guided Visual Masking	May 30, 2024	Instruction FollowingVisual Grounding	CodeCode Available	1
Reverse Image Retrieval Cues Parametric Memory in Multimodal LLMs	May 29, 2024	Image RetrievalQuestion Answering	CodeCode Available	1
PitVQA: Image-grounded Text Embedding LLM for Visual Question Answering in Pituitary Surgery	May 22, 2024	Question AnsweringVisual Question Answering	CodeCode Available	1
Light-VQA+: A Video Quality Assessment Model for Exposure Correction with Vision-Language Guidance	May 6, 2024	Exposure CorrectionVideo Enhancement	CodeCode Available	1
ViOCRVQA: Novel Benchmark Dataset and Vision Reader for Visual Question Answering by Understanding Vietnamese Text in Images	Apr 29, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
LaPA: Latent Prompt Assist Model For Medical Visual Question Answering	Apr 19, 2024	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	1
TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding	Apr 15, 2024	Question AnsweringVisual Question Answering (VQA)	CodeCode Available	1
Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts	Apr 12, 2024	Image CaptioningQuestion Answering	CodeCode Available	1
JDocQA: Japanese Document Question Answering Dataset for Generative Language Models	Mar 28, 2024	HallucinationQuestion Answering	CodeCode Available	1
Quantifying and Mitigating Unimodal Biases in Multimodal Large Language Models: A Causal Perspective	Mar 27, 2024	Question AnsweringVisual Question Answering	CodeCode Available	1
IllusionVQA: A Challenging Optical Illusion Dataset for Vision Language Models	Mar 23, 2024	Common Sense ReasoningIn-Context Learning	CodeCode Available	1
Multi-Agent VQA: Exploring Multi-Agent Foundation Models in Zero-Shot Visual Question Answering	Mar 21, 2024	object-detectionObject Detection	CodeCode Available	1
HYDRA: A Hyper Agent for Dynamic Compositional Visual Reasoning	Mar 19, 2024	Reinforcement Learning (RL)Visual Grounding	CodeCode Available	1
PhD: A ChatGPT-Prompted Visual hallucination Evaluation Dataset	Mar 17, 2024	AttributeCommon Sense Reasoning	CodeCode Available	1
Multi-modal Auto-regressive Modeling via Visual Words	Mar 12, 2024	Visual Question AnsweringVisual Question Answering (VQA)	CodeCode Available	1
Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models	Mar 12, 2024	Concept AlignmentInstruction Following	CodeCode Available	1
Bridging the Gap between 2D and 3D Visual Question Answering: A Fusion Approach for 3D VQA	Feb 24, 2024	3D Question Answering (3D-QA)Question Answering	CodeCode Available	1
Uncertainty-Aware Evaluation for Vision-Language Models	Feb 22, 2024	Conformal PredictionLanguage Modeling	CodeCode Available	1
Cognitive Visual-Language Mapper: Advancing Multimodal Comprehension with Enhanced Visual Knowledge Alignment	Feb 21, 2024	Language ModellingQuestion Answering	CodeCode Available	1
Multi-modal Preference Alignment Remedies Degradation of Visual Instruction Tuning on Language Models	Feb 16, 2024	DiversityInstruction Following	CodeCode Available	1
Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy	Feb 11, 2024	Language ModelingOpen Vocabulary Attribute Detection	CodeCode Available	1
Gemini Goes to Med School: Exploring the Capabilities of Multimodal Large Language Models on Medical Challenge Problems & Hallucinations	Feb 10, 2024	DiagnosticHallucination	CodeCode Available	1
Text-Guided Image Clustering	Feb 5, 2024	ClusteringImage Captioning	CodeCode Available	1
Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge	Jan 19, 2024	Question AnsweringQuestion Generation	CodeCode Available	1
Question-Answer Cross Language Image Matching for Weakly Supervised Semantic Segmentation	Jan 18, 2024	Contrastive LearningPrompt Engineering	CodeCode Available	1
Veagle: Advancements in Multimodal Representation Learning	Jan 18, 2024	Image CaptioningLanguage Modelling	CodeCode Available	1
Cross-modal Retrieval for Knowledge-based Visual Question Answering	Jan 11, 2024	Cross-Modal RetrievalQuestion Answering	CodeCode Available	1
MISS: A Generative Pretraining and Finetuning Approach for Med-VQA	Jan 10, 2024	Medical Visual Question AnsweringMulti-Task Learning	CodeCode Available	1
3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding	Jan 6, 2024	Scene UnderstandingVisual Question Answering (VQA)	CodeCode Available	1
Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via Text-Only Training	Jan 4, 2024	DescriptiveImage Captioning	CodeCode Available	1
Towards More Faithful Natural Language Explanation Using Multi-Level Contrastive Learning in VQA	Dec 21, 2023	Contrastive Learningcounterfactual	CodeCode Available	1
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks	Dec 21, 2023	Image RetrievalImage-to-Text Retrieval	CodeCode Available	1
EarthVQA: Towards Queryable Earth via Relational Reasoning-Based Remote Sensing Visual Question Answering	Dec 19, 2023	ObjectObject Counting	CodeCode Available	1
HAAR: Text-Conditioned Generative Model of 3D Strand-based Human Hairstyles	Dec 18, 2023	Question AnsweringVisual Question Answering	CodeCode Available	1
ViLA: Efficient Video-Language Alignment for Video Question Answering	Dec 13, 2023	cross-modal alignmentLanguage Modeling	CodeCode Available	1
Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator	Dec 11, 2023	Image CaptioningQuestion Answering	CodeCode Available	1

Show:10 25 50

← PrevPage 5 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified