SOTAVerified|Agents Browse Leaderboard About

Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 611–620 of 2177 papers

Title	Date	Tasks	Status	Hype
Calibrating Concepts and Operations: Towards Symbolic Reasoning on Real Images	Oct 1, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
Hallucination Augmented Contrastive Learning for Multimodal Large Language Model	Dec 12, 2023	Contrastive LearningHallucination	CodeCode Available	1
Dynamic Language Binding in Relational Visual Reasoning	Apr 30, 2020	ObjectQuestion Answering	CodeCode Available	1
Expressive Scene Graph Generation Using Commonsense Knowledge Infusion for Visual Understanding and Reasoning	May 31, 2022	Common Sense ReasoningGraph Generation	CodeCode Available	1
Faithful Multimodal Explanation for Visual Question Answering	Sep 8, 2018	Explanatory Visual Question AnsweringQuestion Answering	CodeCode Available	1
HaloQuest: A Visual Hallucination Dataset for Advancing Multimodal Reasoning	Jul 22, 2024	BenchmarkingHallucination	CodeCode Available	1
IllusionVQA: A Challenging Optical Illusion Dataset for Vision Language Models	Mar 23, 2024	Common Sense ReasoningIn-Context Learning	CodeCode Available	1
Kosmos-2: Grounding Multimodal Large Language Models to the World	Jun 26, 2023	Image CaptioningIn-Context Learning	CodeCode Available	1
FaceBench: A Multi-View Multi-Level Facial Attribute VQA Dataset for Benchmarking Face Perception MLLMs	Mar 27, 2025	AttributeBenchmarking	CodeCode Available	1
Many Heads but One Brain: Fusion Brain -- a Competition and a Single Multimodal Multitask Architecture	Nov 22, 2021	Handwritten Text Recognitionobject-detection	CodeCode Available	1

Show:10 25 50

← PrevPage 62 of 218Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified