SOTAVerified|Agents Browse Leaderboard About

Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 191–200 of 2177 papers

Title	Date	Tasks	Status	Hype
T2I-FineEval: Fine-Grained Compositional Metric for Text-to-Image Evaluation	Mar 14, 2025	AttributeQuestion Answering	CodeCode Available	0
How Do Multimodal Large Language Models Handle Complex Multimodal Reasoning? Placing Them in An Extensible Escape Game	Mar 13, 2025	Multimodal ReasoningQuestion Answering	CodeCode Available	1
DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding	Mar 13, 2025	4kAutonomous Driving	CodeCode Available	2
On the Limitations of Vision-Language Models in Understanding Image Transforms	Mar 12, 2025	Question AnsweringVideo Generation	—Unverified	0
SurgicalVLM-Agent: Towards an Interactive AI Co-Pilot for Pituitary Surgery	Mar 12, 2025	Activity RecognitionAnatomy	—Unverified	0
SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment	Mar 12, 2025	Autonomous DrivingBench2Drive	CodeCode Available	3
Seeing and Reasoning with Confidence: Supercharging Multimodal LLMs with an Uncertainty-Aware Agentic Framework	Mar 11, 2025	Conformal PredictionMultimodal Reasoning	—Unverified	0
From Text to Visuals: Using LLMs to Generate Math Diagrams with Vector Graphics	Mar 10, 2025	MathQuestion Answering	—Unverified	0
Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru	Mar 10, 2025	Autonomous DrivingQuestion Answering	—Unverified	0
TI-JEPA: An Innovative Energy-based Joint Embedding Strategy for Text-Image Multimodal Systems	Mar 9, 2025	Multimodal Sentiment AnalysisQuestion Answering	—Unverified	0

Show:10 25 50

← PrevPage 20 of 218Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified