Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1076–1100 of 2177 papers

Title	Date	Tasks	Status
When are Lemons Purple? The Concept Association Bias of Vision-Language Models	Dec 22, 2022	Attributeimage-classification	—Unverified
Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models	Jan 20, 2020	Question AnsweringVisual Question Answering	—Unverified
Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions	Feb 20, 2024	Image CaptioningQuestion Answering	—Unverified
An Empirical Study on Leveraging Scene Graphs for Visual Question Answering	Jul 28, 2019	Knowledge GraphsQuestion Answering	—Unverified
LRRA:A Transparent Neural-Symbolic Reasoning Framework for Real-World Visual Question Answering	Aug 1, 2021	Question AnsweringVisual Question Answering	—Unverified
Exploring the Effectiveness of Object-Centric Representations in Visual Question Answering: Comparative Insights with Foundation Models	Jul 22, 2024	Question AnsweringRepresentation Learning	—Unverified
Can You Explain That? Lucid Explanations Help Human-AI Collaborative Image Retrieval	Apr 5, 2019	Image RetrievalQuestion Answering	—Unverified
LVLM_CSP: Accelerating Large Vision Language Models via Clustering, Scattering, and Pruning for Reasoning Segmentation	Apr 15, 2025	Image CaptioningQuestion Answering	—Unverified
Exploring Spatial Language Grounding Through Referring Expressions	Feb 4, 2025	Image CaptioningNegation	—Unverified
Exploring Sparse Spatial Relation in Graph Inference for Text-Based VQA	Oct 13, 2023	Graph LearningObject	—Unverified
An Empirical Study of Batch Normalization and Group Normalization in Conditional Computation	Jul 31, 2019	Conditional Image GenerationFew-Shot Learning	—Unverified
Exploring Question Decomposition for Zero-Shot VQA	Oct 25, 2023	Question AnsweringVisual Question Answering	—Unverified
Exploring Human-like Attention Supervision in Visual Question Answering	Sep 19, 2017	Question AnsweringVisual Question Answering	—Unverified
M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding	Nov 7, 2024	document understandingOptical Character Recognition	—Unverified
M4CXR: Exploring Multi-task Potentials of Multi-modal Large Language Models for Chest X-ray Interpretation	Aug 29, 2024	Instruction FollowingMedical Report Generation	—Unverified
MagiC: Evaluating Multimodal Cognition Toward Grounded Visual Reasoning	Jul 9, 2025	DiagnosticMultimodal Reasoning	—Unverified
MAGIC-VQA: Multimodal And Grounded Inference with Commonsense Knowledge for Visual Question Answering	Mar 24, 2025	Graph Neural NetworkQuestion Answering	—Unverified
Exploring Diverse Methods in Visual Question Answering	Apr 21, 2024	Question AnsweringVisual Question Answering	—Unverified
Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison	Feb 20, 2025	DiversityLanguage Modeling	—Unverified
Making the Most of What You Have: Adapting Pre-trained Visual Language Models in the Low-data Regime	May 3, 2023	Image CaptioningQuestion Answering	—Unverified
An Empirical Evaluation of Visual Question Answering for Novel Objects	Apr 8, 2017	Question AnsweringVisual Question Answering	—Unverified
Explore the Hallucination on Low-level Perception for MLLMs	Sep 15, 2024	HallucinationQuestion Answering	—Unverified
Video Question Answering for People with Visual Impairments Using an Egocentric 360-Degree Camera	May 30, 2024	Question AnsweringVideo Question Answering	—Unverified
MAMO: Masked Multimodal Modeling for Fine-Grained Vision-Language Representation Learning	Oct 9, 2022	Image-text Retrievalmultimodal interaction	—Unverified
Explicit Reasoning over End-to-End Neural Architectures for Visual Question Answering	Mar 23, 2018	Question AnsweringVisual Question Answering	—Unverified

Show:10 25 50

← PrevPage 44 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified