Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–175 of 2177 papers

Title	Date	Tasks	Status	Hype
KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models in the Korean Language	Mar 31, 2025	FormQuestion Answering	CodeCode Available	0
OpenDriveVLA: Towards End-to-end Autonomous Driving with Large Vision Language Action Model	Mar 30, 2025	Autonomous DrivingDecision Making	CodeCode Available	4
How Well Can Vison-Language Models Understand Humans' Intention? An Open-ended Theory of Mind Question Evaluation Benchmark	Mar 28, 2025	Question AnsweringVisual Question Answering	—Unverified	0
JEEM: Vision-Language Understanding in Four Arabic Dialects	Mar 27, 2025	Image CaptioningQuestion Answering	—Unverified	0
CTRL-O: Language-Controllable Object-Centric Visual Representation Learning	Mar 27, 2025	Image GenerationObject	—Unverified	0
Fine-Grained Evaluation of Large Vision-Language Models in Autonomous Driving	Mar 27, 2025	AttributeAutonomous Driving	CodeCode Available	1
FaceBench: A Multi-View Multi-Level Facial Attribute VQA Dataset for Benchmarking Face Perception MLLMs	Mar 27, 2025	AttributeBenchmarking	CodeCode Available	1
Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy	Mar 26, 2025	HallucinationImage Captioning	—Unverified	0
Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields	Mar 26, 2025	Question AnsweringVisual Question Answering	—Unverified	0
Vision-Amplified Semantic Entropy for Hallucination Detection in Medical Visual Question Answering	Mar 26, 2025	DiagnosticHallucination	—Unverified	0
Instruction-Oriented Preference Alignment for Enhancing Multi-Modal Comprehension Capability of MLLMs	Mar 26, 2025	HallucinationHallucination Evaluation	—Unverified	0
LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning?	Mar 25, 2025	Autonomous NavigationQuestion Answering	—Unverified	0
Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models	Mar 25, 2025	BenchmarkingImage Captioning	CodeCode Available	1
VGAT: A Cancer Survival Analysis Framework Transitioning from Generative Visual Question Answering to Genomic Reconstruction	Mar 25, 2025	Generative Visual Question AnsweringQuestion Answering	CodeCode Available	0
ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation	Mar 25, 2025	Action GenerationAutonomous Driving	—Unverified	0
PAVE: Patching and Adapting Video Large Language Models	Mar 25, 2025	Audio-visual Question AnsweringMulti-Task Learning	CodeCode Available	1
Improved Alignment of Modalities in Large Vision Language Models	Mar 25, 2025	GPUImage Captioning	—Unverified	0
Med3DVLM: An Efficient Vision-Language Model for 3D Medical Image Analysis	Mar 25, 2025	Contrastive LearningImage-text Retrieval	CodeCode Available	2
Where is this coming from? Making groundedness count in the evaluation of Document VQA models	Mar 24, 2025	Question AnsweringVisual Question Answering	—Unverified	0
MAGIC-VQA: Multimodal And Grounded Inference with Commonsense Knowledge for Visual Question Answering	Mar 24, 2025	Graph Neural NetworkQuestion Answering	—Unverified	0
DiN: Diffusion Model for Robust Medical VQA with Semantic Noisy Labels	Mar 24, 2025	Medical Visual Question AnsweringQuestion Answering	—Unverified	0
MC-LLaVA: Multi-Concept Personalized Vision-Language Model	Mar 24, 2025	Language ModelingLanguage Modelling	CodeCode Available	2
Expanding the Boundaries of Vision Prior Knowledge in Multi-modal Large Language Models	Mar 23, 2025	Question AnsweringVisual Question Answering	—Unverified	0
Progressive Prompt Detailing for Improved Alignment in Text-to-Image Generative Models	Mar 22, 2025	Question AnsweringVisual Question Answering	CodeCode Available	0
Does Chain-of-Thought Reasoning Help Mobile GUI Agent? An Empirical Study	Mar 21, 2025	AttributeMathematical Problem-Solving	CodeCode Available	0

Show:10 25 50

← PrevPage 7 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified