Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–675 of 2177 papers

Title	Date	Tasks	Status
Hypo3D: Exploring Hypothetical Reasoning in 3D	Feb 2, 2025	Question AnsweringVisual Question Answering	—Unverified
Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models?	Jun 20, 2024	Caption GenerationHallucination	—Unverified
Does my multimodal model learn cross-modal interactions? It's harder to tell than you might think!	Oct 13, 2020	DiagnosticImage-text Classification	—Unverified
Boosting Cross-task Transferability of Adversarial Patches with Visual Relations	Apr 11, 2023	Image CaptioningObject Recognition	—Unverified
Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering	May 2, 2022	DecoderImage Captioning	—Unverified
BOK-VQA: Bilingual outside Knowledge-Based Visual Question Answering via Graph Representation Pretraining	Jan 12, 2024	Question AnsweringVisual Question Answering	—Unverified
Document Visual Question Answering Challenge 2020	Aug 20, 2020	Question AnsweringRetrieval	—Unverified
Document Collection Visual Question Answering	Apr 27, 2021	document understandingQuestion Answering	—Unverified
Blocks as Probes: Dissecting Categorization Ability of Large Multimodal Models	Sep 3, 2024	Question AnsweringVisual Question Answering	—Unverified
Document AI: Benchmarks, Models and Applications	Nov 16, 2021	Deep LearningDocument AI	—Unverified
A Cognitive Evaluation Benchmark of Image Reasoning and Description for Large Vision-Language Models	Feb 28, 2024	Image DescriptionQuestion Answering	—Unverified
Human-centered Interactive Learning via MLLMs for Text-to-Image Person Re-identification	May 21, 2025	Data AugmentationLarge Language Model	—Unverified
DLIP: Distilling Language-Image Pre-training	Aug 24, 2023	Image CaptioningImage-text Retrieval	—Unverified
Generating Question Relevant Captions to Aid Visual Question Answering	Jun 3, 2019	General KnowledgeImage Captioning	—Unverified
Human Mobility Question Answering (Vision Paper)	Oct 2, 2023	ManagementQuestion Answering	—Unverified
Diversity and Consistency: Exploring Visual Question-Answer Pair Generation	Nov 1, 2021	DiversityQuestion Answering	—Unverified
Diversifying Joint Vision-Language Tokenization Learning	Jun 6, 2023	Question AnsweringRepresentation Learning	—Unverified
DistilDoc: Knowledge Distillation for Visually-Rich Document Applications	Jun 12, 2024	document-image-classificationDocument Image Classification	—Unverified
Adversarial Attacks Beyond the Image Space	Nov 20, 2017	Question AnsweringVisual Question Answering	—Unverified
Hummingbird: High Fidelity Image Generation via Multimodal Context Alignment	Feb 7, 2025	DiversityHuman-Object Interaction Detection	—Unverified
Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA	Jun 27, 2024	General KnowledgeQuestion Answering	—Unverified
Adventurer's Treasure Hunt: A Transparent System for Visually Grounded Compositional Visual Question Answering based on Scene Graphs	Jun 28, 2021	Question AnsweringTask 2	—Unverified
HRVQA: A Visual Question Answering Benchmark for High-Resolution Aerial Images	Jan 23, 2023	AttributeQuestion Answering	—Unverified
Answer-checking in Context: A Multi-modal FullyAttention Network for Visual Question Answering	Oct 17, 2020	Question AnsweringVisual Question Answering	—Unverified
Human-Adversarial Visual Question Answering	Jun 4, 2021	Question AnsweringVisual Question Answering	—Unverified

Show:10 25 50

← PrevPage 27 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified