Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 701–750 of 2167 papers

Title	Date	Tasks	Status
Vision-Amplified Semantic Entropy for Hallucination Detection in Medical Visual Question Answering	Mar 26, 2025	DiagnosticHallucination	—Unverified
ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation	Mar 25, 2025	Action GenerationAutonomous Driving	—Unverified
LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning?	Mar 25, 2025	Autonomous NavigationQuestion Answering	—Unverified
VGAT: A Cancer Survival Analysis Framework Transitioning from Generative Visual Question Answering to Genomic Reconstruction	Mar 25, 2025	Generative Visual Question AnsweringQuestion Answering	CodeCode Available
DiN: Diffusion Model for Robust Medical VQA with Semantic Noisy Labels	Mar 24, 2025	Medical Visual Question AnsweringQuestion Answering	—Unverified
MAGIC-VQA: Multimodal And Grounded Inference with Commonsense Knowledge for Visual Question Answering	Mar 24, 2025	Graph Neural NetworkQuestion Answering	—Unverified
Where is this coming from? Making groundedness count in the evaluation of Document VQA models	Mar 24, 2025	Question AnsweringVisual Question Answering	—Unverified
Expanding the Boundaries of Vision Prior Knowledge in Multi-modal Large Language Models	Mar 23, 2025	Question AnsweringVisual Question Answering	—Unverified
Progressive Prompt Detailing for Improved Alignment in Text-to-Image Generative Models	Mar 22, 2025	Question AnsweringVisual Question Answering	CodeCode Available
A Vision Centric Remote Sensing Benchmark	Mar 20, 2025	Question AnsweringRepresentation Learning	—Unverified
TruthLens:A Training-Free Paradigm for DeepFake Detection	Mar 19, 2025	Binary ClassificationDeepFake Detection	—Unverified
UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation	Mar 19, 2025	Language Model EvaluationLanguage Modeling	—Unverified
ChatBEV: A Visual Language Model that Understands BEV Maps	Mar 18, 2025	Autonomous DrivingLanguage Modeling	—Unverified
Marten: Visual Question Answering with Mask Generation for Multi-modal Document Understanding	Mar 18, 2025	document understandingQuestion Answering	CodeCode Available
GeoRSMLLM: A Multimodal Large Language Model for Vision-Language Tasks in Geoscience and Remote Sensing	Mar 16, 2025	Change DetectionImage Captioning	—Unverified
T2I-FineEval: Fine-Grained Compositional Metric for Text-to-Image Evaluation	Mar 14, 2025	AttributeQuestion Answering	CodeCode Available
DynRsl-VLM: Enhancing Autonomous Driving Perception with Dynamic Resolution Vision-Language Models	Mar 14, 2025	Autonomous DrivingComputational Efficiency	—Unverified
Astrea: A MOE-based Visual Understanding Model with Progressive Alignment	Mar 12, 2025	Contrastive LearningCross-Modal Retrieval	—Unverified
SurgicalVLM-Agent: Towards an Interactive AI Co-Pilot for Pituitary Surgery	Mar 12, 2025	Activity RecognitionAnatomy	—Unverified
ComicsPAP: understanding comic strips by picking the correct panel	Mar 11, 2025	Image CaptioningVisual Question Answering (VQA)	—Unverified
Seeing and Reasoning with Confidence: Supercharging Multimodal LLMs with an Uncertainty-Aware Agentic Framework	Mar 11, 2025	Conformal PredictionMultimodal Reasoning	—Unverified
Bring Remote Sensing Object Detect Into Nature Language Model: Using SFT Method	Mar 11, 2025	Language ModelingLanguage Modelling	—Unverified
Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru	Mar 10, 2025	Autonomous DrivingQuestion Answering	—Unverified
CalliReader: Contextualizing Chinese Calligraphy via an Embedding-Aligned Vision-Language Model	Mar 9, 2025	HallucinationLanguage Modeling	—Unverified
SplatTalk: 3D VQA with Gaussian Splatting	Mar 8, 2025	3DGSQuestion Answering	—Unverified
MoEMoE: Question Guided Dense and Scalable Sparse Mixture-of-Expert for Multi-source Multi-modal Answering	Mar 8, 2025	Answer GenerationMixture-of-Experts	—Unverified
Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models	Mar 8, 2025	Caption GenerationQuestion Answering	—Unverified
Enhancing Vietnamese VQA through Curriculum Learning on Raw and Augmented Text Representations	Mar 5, 2025	Question AnsweringVisual Question Answering	CodeCode Available
BioD2C: A Dual-level Semantic Consistency Constraint Framework for Biomedical VQA	Mar 4, 2025	Medical DiagnosisQuestion Answering	CodeCode Available
A Token-level Text Image Foundation Model for Document Understanding	Mar 4, 2025	document understandingVisual Question Answering (VQA)	—Unverified
Watch Out Your Album! On the Inadvertent Privacy Memorization in Multi-Modal Large Language Models	Mar 3, 2025	MemorizationQuestion Answering	CodeCode Available
V^2Dial: Unification of Video and Visual Dialog via Multimodal Experts	Mar 3, 2025	Contrastive LearningText Retrieval	—Unverified
Enhancing Multi-hop Reasoning in Vision-Language Models via Self-Distillation with Multi-Prompt Ensembling	Mar 3, 2025	Answer GenerationComputational Efficiency	—Unverified
FunBench: Benchmarking Fundus Reading Skills of MLLMs	Mar 2, 2025	AnatomyBenchmarking	—Unverified
CL-MoE: Enhancing Multimodal Large Language Model with Dual Momentum Mixture-of-Experts for Continual Visual Question Answering	Mar 1, 2025	Continual LearningLanguage Modeling	—Unverified
ABC: Achieving Better Control of Multimodal Embeddings using VLMs	Mar 1, 2025	Image to textImage-to-Text Retrieval	—Unverified
MedHallTune: An Instruction-Tuning Benchmark for Mitigating Medical Hallucination in Vision-Language Models	Feb 28, 2025	Decision MakingHallucination	CodeCode Available
Fine-Grained Retrieval-Augmented Generation for Visual Question Answering	Feb 28, 2025	Question AnsweringRAG	—Unverified
Adaptive Score Alignment Learning for Continual Perceptual Quality Assessment of 360-Degree Videos in Virtual Reality	Feb 27, 2025	Video Quality AssessmentVisual Question Answering (VQA)	CodeCode Available
ChatReID: Open-ended Interactive Person Retrieval via Hierarchical Progressive Tuning for Vision Language Models	Feb 27, 2025	Person Re-IdentificationPerson Retrieval	—Unverified
Talking to the brain: Using Large Language Models as Proxies to Model Brain Semantic Representation	Feb 26, 2025	Question Answeringvalid	—Unverified
FilterRAG: Zero-Shot Informed Retrieval-Augmented Generation to Mitigate Hallucinations in VQA	Feb 25, 2025	Question AnsweringRetrieval	—Unverified
Retrieval-Augmented Visual Question Answering via Built-in Autoregressive Search Engines	Feb 23, 2025	Answer GenerationLanguage Modeling	—Unverified
Directional Gradient Projection for Robust Fine-Tuning of Foundation Models	Feb 21, 2025	image-classificationImage Classification	—Unverified
Multiscale Byte Language Models -- A Hierarchical Architecture for Causal Million-Length Sequence Modeling	Feb 20, 2025	DecoderGPU	CodeCode Available
Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison	Feb 20, 2025	DiversityLanguage Modeling	—Unverified
Hardware-Friendly Static Quantization Method for Video Diffusion Transformers	Feb 20, 2025	QuantizationVideo Generation	—Unverified
Sce2DriveX: A Generalized MLLM Framework for Scene-to-Drive Learning	Feb 19, 2025	Autonomous DrivingBench2Drive	—Unverified
PitVQA++: Vector Matrix-Low-Rank Adaptation for Open-Ended Visual Question Answering in Pituitary Surgery	Feb 19, 2025	Question AnsweringVisual Question Answering	CodeCode Available
SafeEraser: Enhancing Safety in Multimodal Large Language Models through Multimodal Machine Unlearning	Feb 18, 2025	Machine UnlearningVisual Question Answering (VQA)	—Unverified

Show:10 25 50

← PrevPage 15 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified