Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1251–1275 of 2177 papers

Title	Date	Tasks	Status
Multimodal Commonsense Knowledge Distillation for Visual Question Answering	Nov 5, 2024	Knowledge DistillationQuestion Answering	—Unverified
VisionGPT: Vision-Language Understanding Agent Using Generalized Multimodal Framework	Mar 14, 2024	Language ModelingLanguage Modelling	—Unverified
Multimodal Compact Bilinear Pooling for Multimodal Neural Machine Translation	Mar 23, 2017	DecoderMachine Translation	—Unverified
Multimodal Continuous Visual Attention Mechanisms	Apr 7, 2021	ClusteringQuestion Answering	—Unverified
Multi-modal Deep Analysis for Multimedia	Oct 11, 2019	Multi-modal RecommendationQuestion Answering	—Unverified
Multi-Modal Explainable Medical AI Assistant for Trustworthy Human-AI Collaboration	May 11, 2025	BenchmarkingDescriptive	—Unverified
Vision-Language Models as Success Detectors	Mar 13, 2023	Question AnsweringVisual Question Answering	—Unverified
Vision Language Models Can Parse Floor Plan Maps	Sep 19, 2024	Image CaptioningQuestion Answering	—Unverified
Does my multimodal model learn cross-modal interactions? It's harder to tell than you might think!	Oct 13, 2020	DiagnosticImage-text Classification	—Unverified
Multimodal Few-Shot Learning with Frozen Language Models	Jun 25, 2021	Few-Shot LearningLanguage Modeling	—Unverified
Document Visual Question Answering Challenge 2020	Aug 20, 2020	Question AnsweringRetrieval	—Unverified
Multi-Modal Fusion Transformer for Visual Question Answering in Remote Sensing	Oct 10, 2022	Question AnsweringRepresentation Learning	—Unverified
Multimodal Graph Networks for Compositional Generalization in Visual Question Answering	Dec 1, 2020	Graph Neural NetworkQuestion Answering	—Unverified
Multimodal grid features and cell pointers for Scene Text Visual Question Answering	Jun 1, 2020	Question AnsweringVisual Question Answering	—Unverified
Multi-Modal Instruction-Tuning Small-Scale Language-and-Vision Assistant for Semiconductor Electron Micrograph Analysis	Aug 27, 2024	Instruction FollowingQuestion Answering	—Unverified
Multimodal Integration of Human-Like Attention in Visual Question Answering	Sep 27, 2021	Question AnsweringVisual Question Answering	—Unverified
Multimodal Intelligence: Representation Learning, Information Fusion, and Applications	Nov 10, 2019	Caption GenerationImage Generation	—Unverified
Document Collection Visual Question Answering	Apr 27, 2021	document understandingQuestion Answering	—Unverified
Multi-modality Latent Interaction Network for Visual Question Answering	Aug 10, 2019	Language ModelingLanguage Modelling	—Unverified
Document AI: Benchmarks, Models and Applications	Nov 16, 2021	Deep LearningDocument AI	—Unverified
Vision-Language Models for Edge Networks: A Comprehensive Survey	Feb 11, 2025	Autonomous VehiclesImage Captioning	—Unverified
Multimodal Learning and Reasoning for Visual Question Answering	Dec 1, 2017	Question AnsweringRepresentation Learning	—Unverified
Scene Graph Reasoning with Prior Visual Relationship for Visual Question Answering	Dec 23, 2018	Cross-Modal Information RetrievalInformation Retrieval	—Unverified
Multimodal Neural Graph Memory Networks for Visual Question Answering	Jul 1, 2020	Graph Neural NetworkQuestion Answering	—Unverified
DLIP: Distilling Language-Image Pre-training	Aug 24, 2023	Image CaptioningImage-text Retrieval	—Unverified

Show:10 25 50

← PrevPage 51 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified