Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1601–1625 of 2177 papers

Title	Date	Tasks	Status
Unveiling Cross Modality Bias in Visual Question Answering: A Causal View with Possible Worlds VQA	May 31, 2023	counterfactualCounterfactual Inference	—Unverified
UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation	Mar 19, 2025	Language Model EvaluationLanguage Modeling	—Unverified
Using Visual Cropping to Enhance Fine-Detail Question Answering of BLIP-Family Models	May 31, 2023	Question AnsweringVisual Question Answering	—Unverified
VALSE: A Task-Independent Benchmark for Vision and Language Models centered on Linguistic Phenomena	Aug 17, 2021	Question AnsweringVisual Question Answering	—Unverified
Variational Disentangled Attention for Regularized Visual Dialog	Sep 29, 2021	Question AnsweringVisual Dialog	—Unverified
Variational Visual Question Answering	May 14, 2025	Question AnsweringVisual Question Answering	—Unverified
VCD: Knowledge Base Guided Visual Commonsense Discovery in Images	Feb 27, 2024	Decision MakingLanguage Modelling	—Unverified
VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents	Apr 14, 2025	Question AnsweringRAG	—Unverified
V-Doc : Visual questions answers with Documents	May 27, 2022	Question AnsweringQuestion Generation	—Unverified
V-Doc: Visual Questions Answers With Documents	Jan 1, 2022	Question AnsweringQuestion Generation	—Unverified
VGNMN: Video-grounded Neural Module Networks for Video-Grounded Dialogue Systems	Jul 1, 2022	Information RetrievalQuestion Answering	—Unverified
VGNMN: Video-grounded Neural Module Network to Video-Grounded Language Tasks	Apr 16, 2021	Information RetrievalQuestion Answering	—Unverified
Video Question Answering for People with Visual Impairments Using an Egocentric 360-Degree Camera	May 30, 2024	Question AnsweringVideo Question Answering	—Unverified
Video Question Answering via Attribute-Augmented Attention Network Learning	Jul 20, 2017	AttributeInformation Retrieval	—Unverified
VILA^2: VILA Augmented VILA	Jul 24, 2024	HallucinationOptical Character Recognition (OCR)	—Unverified
ViLMedic: a framework for research at the intersection of vision and language in medical AI	May 1, 2022	Medical Visual Question AnsweringQuestion Answering	—Unverified
Vision-Amplified Semantic Entropy for Hallucination Detection in Medical Visual Question Answering	Mar 26, 2025	DiagnosticHallucination	—Unverified
Vision and Language: from Visual Perception to Content Creation	Dec 26, 2019	DecoderQuestion Answering	—Unverified
Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning	Feb 18, 2024	HallucinationVisual Question Answering	—Unverified
VisionGPT: Vision-Language Understanding Agent Using Generalized Multimodal Framework	Mar 14, 2024	Language ModelingLanguage Modelling	—Unverified
Vision-Language Models as Success Detectors	Mar 13, 2023	Question AnsweringVisual Question Answering	—Unverified
Vision Language Models Can Parse Floor Plan Maps	Sep 19, 2024	Image CaptioningQuestion Answering	—Unverified
Vision-Language Models for Edge Networks: A Comprehensive Survey	Feb 11, 2025	Autonomous VehiclesImage Captioning	—Unverified
Vision-Language Pretraining: Current Trends and the Future	May 1, 2022	Question AnsweringRepresentation Learning	—Unverified
Vision LLMs Are Bad at Hierarchical Visual Understanding, and LLMs Are the Bottleneck	May 30, 2025	Question AnsweringVisual Question Answering	—Unverified

Show:10 25 50

← PrevPage 65 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified