Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 226–250 of 2177 papers

Title	Date	Tasks	Status	Hype
MineAnyBuild: Benchmarking Spatial Planning for Open-world AI Agents	May 26, 2025	BenchmarkingMinecraft	CodeCode Available	1
Visualized Text-to-Image Retrieval	May 26, 2025	Image RetrievalQuestion Answering	CodeCode Available	1
SATORI-R1: Incentivizing Multimodal Reasoning with Spatial Grounding and Verifiable Rewards	May 25, 2025	Image CaptioningMultimodal Reasoning	CodeCode Available	1
Are Vision Language Models Ready for Clinical Diagnosis? A 3D Medical Benchmark for Tumor-centric Visual Question Answering	May 25, 2025	AnatomyBenchmarking	CodeCode Available	1
VEAttack: Downstream-agnostic Vision Encoder Attack against Large Vision Language Models	May 23, 2025	Question AnsweringVisual Question Answering	CodeCode Available	1
Benchmarking Retrieval-Augmented Multimomal Generation for Document Question Answering	May 22, 2025	BenchmarkingEvidence Selection	CodeCode Available	1
Mitigating Hallucinations in Vision-Language Models through Image-Guided Head Suppression	May 22, 2025	HallucinationImage Description	CodeCode Available	1
Reasoning-OCR: Can Large Multimodal Models Solve Complex Logical Reasoning Problems from OCR Cues?	May 19, 2025	Logical ReasoningOptical Character Recognition	CodeCode Available	1
MedAgentBoard: Benchmarking Multi-Agent Collaboration with Conventional Methods for Diverse Medical Tasks	May 18, 2025	BenchmarkingMedical Visual Question Answering	CodeCode Available	1
UniBiomed: A Universal Foundation Model for Grounded Biomedical Image Interpretation	Apr 30, 2025	DiagnosticLarge Language Model	CodeCode Available	1
ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification	Apr 29, 2025	DiagnosticQuestion Answering	CodeCode Available	1
Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency	Apr 24, 2025	BenchmarkingMath	CodeCode Available	1
ReasonDrive: Efficient Visual Question Answering for Autonomous Vehicles with Reasoning-Enhanced Small Vision-Language Models	Apr 14, 2025	Autonomous DrivingAutonomous Vehicles	CodeCode Available	1
A Survey on Efficient Vision-Language Models	Apr 13, 2025	Image CaptioningQuestion Answering	CodeCode Available	1
STING-BEE: Towards Vision-Language Model for Real-World X-ray Baggage Security Inspection	Apr 3, 2025	Instruction FollowingLanguage Modeling	CodeCode Available	1
GMAI-VL-R1: Harnessing Reinforcement Learning for Multimodal Medical Reasoning	Apr 2, 2025	Decision MakingDiagnostic	CodeCode Available	1
FaceBench: A Multi-View Multi-Level Facial Attribute VQA Dataset for Benchmarking Face Perception MLLMs	Mar 27, 2025	AttributeBenchmarking	CodeCode Available	1
Fine-Grained Evaluation of Large Vision-Language Models in Autonomous Driving	Mar 27, 2025	AttributeAutonomous Driving	CodeCode Available	1
PAVE: Patching and Adapting Video Large Language Models	Mar 25, 2025	Audio-visual Question AnsweringMulti-Task Learning	CodeCode Available	1
Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models	Mar 25, 2025	BenchmarkingImage Captioning	CodeCode Available	1
MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research	Mar 17, 2025	ArticlesBenchmarking	CodeCode Available	1
NuPlanQA: A Large-Scale Dataset and Benchmark for Multi-View Driving Scene Understanding in Multi-Modal Large Language Models	Mar 17, 2025	Question AnsweringScene Understanding	CodeCode Available	1
How Do Multimodal Large Language Models Handle Complex Multimodal Reasoning? Placing Them in An Extensible Escape Game	Mar 13, 2025	Multimodal ReasoningQuestion Answering	CodeCode Available	1
Question-Aware Gaussian Experts for Audio-Visual Question Answering	Mar 6, 2025	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	CodeCode Available	1
ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model	Feb 20, 2025	Mixture-of-ExpertsQuestion Answering	CodeCode Available	1

Show:10 25 50

← PrevPage 10 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified