Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1226–1250 of 2177 papers

Title	Date	Tasks	Status
Vision and Language: from Visual Perception to Content Creation	Dec 26, 2019	DecoderQuestion Answering	—Unverified
mRAG: Elucidating the Design Space of Multi-modal Retrieval-Augmented Generation	May 29, 2025	Question AnsweringRAG	—Unverified
MR-MLLM: Mutual Reinforcement of Multimodal Comprehension and Vision Perception	Jun 22, 2024	Common Sense ReasoningLanguage Modelling	—Unverified
MTabVQA: Evaluating Multi-Tabular Reasoning of Language Models in Visual Space	Jun 13, 2025	Question AnsweringVisual Question Answering	—Unverified
DUBLIN -- Document Understanding By Language-Image Network	May 23, 2023	Document Classificationdocument understanding	—Unverified
Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual Question Answering	Jun 16, 2020	Question AnsweringVisual Question Answering	—Unverified
Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA	Jan 29, 2024	BenchmarkingImage Comprehension	—Unverified
DualNet: Domain-Invariant Network for Visual Question Answering	Jun 20, 2016	Question AnsweringVisual Question Answering	—Unverified
Multi-Agents Based on Large Language Models for Knowledge-based Visual Question Answering	Dec 24, 2024	Question AnsweringVisual Question Answering	—Unverified
Dual Capsule Attention Mask Network with Mutual Learning for Visual Question Answering	Oct 1, 2022	Question AnsweringVisual Question Answering	—Unverified
DreamSync: Aligning Text-to-Image Generation with Image Understanding Feedback	Nov 29, 2023	Image GenerationQuestion Answering	—Unverified
Multi-CLIP: Contrastive Vision-Language Pre-training for Question Answering tasks in 3D Scenes	Jun 4, 2023	Common Sense ReasoningQuestion Answering	—Unverified
Multi-Clue Reasoning with Memory Augmentation for Knowledge-based Visual Question Answering	Dec 20, 2023	Question AnsweringVisual Question Answering	—Unverified
Double Visual Defense: Adversarial Pre-training and Instruction Tuning for Improving Vision-Language Model Robustness	Jan 16, 2025	Adversarial DefenseAdversarial Robustness	—Unverified
Multi-grained Attention with Object-level Grounding for Visual Question Answering	Jul 1, 2019	ObjectQuestion Answering	—Unverified
A Multimodal Social Agent	Dec 11, 2024	Common Sense ReasoningDecision Making	—Unverified
Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning	Feb 18, 2024	HallucinationVisual Question Answering	—Unverified
Multi-Layer Content Interaction Through Quaternion Product For Visual Question Answering	Jan 3, 2020	Question AnsweringVideo Description	—Unverified
Multi-Level Attention Networks for Visual Question Answering	Jul 1, 2017	Question AnsweringVisual Question Answering	—Unverified
Multilingual Augmentation for Robust Visual Question Answering in Remote Sensing Images	Apr 7, 2023	Contrastive LearningQuestion Answering	—Unverified
Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for Vision-Language Tasks	Apr 22, 2022	Question AnsweringVisual Commonsense Reasoning	—Unverified
Domain-robust VQA with diverse datasets and methods but no target labels	Mar 29, 2021	Domain AdaptationObject Recognition	—Unverified
Domain Adaptation of VLM for Soccer Video Understanding	May 20, 2025	Action ClassificationDomain Adaptation	—Unverified
Do Explanations make VQA Models more Predictable to a Human?	Oct 29, 2018	Question AnsweringVisual Question Answering	—Unverified
Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models?	Jun 20, 2024	Caption GenerationHallucination	—Unverified

Show:10 25 50

← PrevPage 50 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified