Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1451–1475 of 2177 papers

Title	Date	Tasks	Status
SimpleLLM4AD: An End-to-End Vision-Language Model with Graph Visual Question Answering for Autonomous Driving	Jul 31, 2024	Autonomous DrivingLanguage Modeling	—Unverified
SimpleVQA: Multimodal Factuality Evaluation for Multimodal Large Language Models	Feb 18, 2025	Image ComprehensionQuestion Answering	—Unverified
SimpsonsVQA: Enhancing Inquiry-Based Learning with a Tailored Dataset	Oct 30, 2024	Question AnsweringVisual Question Answering	—Unverified
SimVQA: Exploring Simulated Environments for Visual Question Answering	Mar 31, 2022	Data AugmentationDiversity	—Unverified
Single-Modal Entropy based Active Learning for Visual Question Answering	Oct 21, 2021	Active LearningQuestion Answering	—Unverified
SITE: towards Spatial Intelligence Thorough Evaluation	May 8, 2025	Question AnsweringSpatial Reasoning	—Unverified
Small Language Model Meets with Reinforced Vision Vocabulary	Jan 23, 2024	Language ModelingLanguage Modelling	—Unverified
SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning	Jun 26, 2025	In-Context LearningMedical Visual Question Answering	—Unverified
SnapNTell: Enhancing Entity-Centric Visual Question Answering with Retrieval Augmented Multimodal LLM	Mar 7, 2024	Question AnsweringRetrieval	—Unverified
SocialGesture: Delving into Multi-person Gesture Understanding	Apr 3, 2025	Gesture RecognitionQuestion Answering	—Unverified
Solution for SMART-101 Challenge of CVPR Multi-modal Algorithmic Reasoning Task 2024	Jun 10, 2024	Language Modellingobject-detection	—Unverified
Solution for SMART-101 Challenge of ICCV Multi-modal Algorithmic Reasoning Task 2023	Oct 10, 2023	Decoderobject-detection	—Unverified
Solving Visual Madlibs with Multiple Cues	Aug 11, 2016	Activity PredictionAttribute	—Unverified
Sparks of Artificial General Intelligence(AGI) in Semiconductor Material Science: Early Explorations into the Next Frontier of Generative AI-Assisted Electron Micrograph Analysis	Sep 17, 2024	In-Context LearningQuestion Answering	—Unverified
Sparse Attention Vectors: Generative Multimodal Model Features Are Discriminative Vision-Language Classifiers	Nov 28, 2024	Image Captioningimage-classification	—Unverified
Spatial Attention as an Interface for Image Captioning Models	Sep 29, 2020	Image CaptioningQuestion Answering	—Unverified
Spatial Knowledge Distillation to aid Visual Reasoning	Dec 10, 2018	DiagnosticKnowledge Distillation	—Unverified
SpatialReasoner: Towards Explicit and Generalizable 3D Spatial Reasoning	Apr 28, 2025	Question AnsweringSpatial Reasoning	—Unverified
SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities	Jan 22, 2024	Question AnsweringSpatial Reasoning	—Unverified
SplatTalk: 3D VQA with Gaussian Splatting	Mar 8, 2025	3DGSQuestion Answering	—Unverified
Stacked Latent Attention for Multimodal Reasoning	Jun 1, 2018	Image CaptioningMultimodal Reasoning	—Unverified
Stacking with Auxiliary Features for Visual Question Answering	Jun 1, 2018	Common Sense ReasoningQuestion Answering	—Unverified
StackOverflowVQA: Stack Overflow Visual Question Answering Dataset	May 17, 2024	Question AnsweringSentence	—Unverified
Steering LVLMs via Sparse Autoencoder for Hallucination Mitigation	May 22, 2025	HallucinationImage Captioning	—Unverified
Story Generation from Visual Inputs: Techniques, Related Tasks, and Challenges	Jun 4, 2024	Question AnsweringStory Generation	—Unverified

Show:10 25 50

← PrevPage 59 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified