SOTAVerified|Agents Browse Leaderboard About

Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 521–530 of 2177 papers

Title	Date	Tasks	Status	Hype	Score
Can We Talk Models Into Seeing the World Differently?	Mar 14, 2024	Image CaptioningImage Classification	CodeCode Available	1	5
MineAnyBuild: Benchmarking Spatial Planning for Open-world AI Agents	May 26, 2025	BenchmarkingMinecraft	CodeCode Available	1	5
Faithful Multimodal Explanation for Visual Question Answering	Sep 8, 2018	Explanatory Visual Question AnsweringQuestion Answering	CodeCode Available	1	5
Are Vision Language Models Ready for Clinical Diagnosis? A 3D Medical Benchmark for Tumor-centric Visual Question Answering	May 25, 2025	AnatomyBenchmarking	CodeCode Available	1	5
FaceBench: A Multi-View Multi-Level Facial Attribute VQA Dataset for Benchmarking Face Perception MLLMs	Mar 27, 2025	AttributeBenchmarking	CodeCode Available	1	5
3D-Aware Visual Question Answering about Parts, Poses and Occlusions	Oct 27, 2023	Question AnsweringVisual Question Answering	CodeCode Available	1	5
Mind Your Outliers! Investigating the Negative Impact of Outliers on Active Learning for Visual Question Answering	Jul 6, 2021	Active LearningObject Recognition	CodeCode Available	1	5
MISS: A Generative Pretraining and Finetuning Approach for Med-VQA	Jan 10, 2024	Medical Visual Question AnsweringMulti-Task Learning	CodeCode Available	1	5
EgoThink: Evaluating First-Person Perspective Thinking Capability of Vision-Language Models	Nov 27, 2023	AttributeQuestion Answering	CodeCode Available	1	5
Explaining Autonomous Driving Actions with Visual Question Answering	Jul 19, 2023	Autonomous DrivingAutonomous Vehicles	CodeCode Available	1	5

Show:10 25 50

← PrevPage 53 of 218Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified