Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1251–1300 of 2177 papers

Title	Date	Tasks	Status
Multimodal Commonsense Knowledge Distillation for Visual Question Answering	Nov 5, 2024	Knowledge DistillationQuestion Answering	—Unverified
VisionGPT: Vision-Language Understanding Agent Using Generalized Multimodal Framework	Mar 14, 2024	Language ModelingLanguage Modelling	—Unverified
Multimodal Compact Bilinear Pooling for Multimodal Neural Machine Translation	Mar 23, 2017	DecoderMachine Translation	—Unverified
Multimodal Continuous Visual Attention Mechanisms	Apr 7, 2021	ClusteringQuestion Answering	—Unverified
Multi-modal Deep Analysis for Multimedia	Oct 11, 2019	Multi-modal RecommendationQuestion Answering	—Unverified
Multi-Modal Explainable Medical AI Assistant for Trustworthy Human-AI Collaboration	May 11, 2025	BenchmarkingDescriptive	—Unverified
Vision-Language Models as Success Detectors	Mar 13, 2023	Question AnsweringVisual Question Answering	—Unverified
Vision Language Models Can Parse Floor Plan Maps	Sep 19, 2024	Image CaptioningQuestion Answering	—Unverified
Does my multimodal model learn cross-modal interactions? It's harder to tell than you might think!	Oct 13, 2020	DiagnosticImage-text Classification	—Unverified
Multimodal Few-Shot Learning with Frozen Language Models	Jun 25, 2021	Few-Shot LearningLanguage Modeling	—Unverified
Document Visual Question Answering Challenge 2020	Aug 20, 2020	Question AnsweringRetrieval	—Unverified
Multi-Modal Fusion Transformer for Visual Question Answering in Remote Sensing	Oct 10, 2022	Question AnsweringRepresentation Learning	—Unverified
Multimodal Graph Networks for Compositional Generalization in Visual Question Answering	Dec 1, 2020	Graph Neural NetworkQuestion Answering	—Unverified
Multimodal grid features and cell pointers for Scene Text Visual Question Answering	Jun 1, 2020	Question AnsweringVisual Question Answering	—Unverified
Multi-Modal Instruction-Tuning Small-Scale Language-and-Vision Assistant for Semiconductor Electron Micrograph Analysis	Aug 27, 2024	Instruction FollowingQuestion Answering	—Unverified
Multimodal Integration of Human-Like Attention in Visual Question Answering	Sep 27, 2021	Question AnsweringVisual Question Answering	—Unverified
Multimodal Intelligence: Representation Learning, Information Fusion, and Applications	Nov 10, 2019	Caption GenerationImage Generation	—Unverified
Document Collection Visual Question Answering	Apr 27, 2021	document understandingQuestion Answering	—Unverified
Multi-modality Latent Interaction Network for Visual Question Answering	Aug 10, 2019	Language ModelingLanguage Modelling	—Unverified
Document AI: Benchmarks, Models and Applications	Nov 16, 2021	Deep LearningDocument AI	—Unverified
Vision-Language Models for Edge Networks: A Comprehensive Survey	Feb 11, 2025	Autonomous VehiclesImage Captioning	—Unverified
Multimodal Learning and Reasoning for Visual Question Answering	Dec 1, 2017	Question AnsweringRepresentation Learning	—Unverified
Scene Graph Reasoning with Prior Visual Relationship for Visual Question Answering	Dec 23, 2018	Cross-Modal Information RetrievalInformation Retrieval	—Unverified
Multimodal Neural Graph Memory Networks for Visual Question Answering	Jul 1, 2020	Graph Neural NetworkQuestion Answering	—Unverified
DLIP: Distilling Language-Image Pre-training	Aug 24, 2023	Image CaptioningImage-text Retrieval	—Unverified
A Multimodal Memes Classification: A Survey and Open Research Issues	Sep 17, 2020	ClassificationGeneral Classification	—Unverified
Diversity and Consistency: Exploring Visual Question-Answer Pair Generation	Nov 1, 2021	DiversityQuestion Answering	—Unverified
Diversifying Joint Vision-Language Tokenization Learning	Jun 6, 2023	Question AnsweringRepresentation Learning	—Unverified
Multimodal Representations for Teacher-Guided Compositional Visual Reasoning	Oct 24, 2023	Question AnsweringVisual Question Answering	—Unverified
Multimodal Reranking for Knowledge-Intensive Visual Question Answering	Jul 17, 2024	Answer GenerationQuestion Answering	—Unverified
American == White in Multimodal Language-and-Image AI	Jul 1, 2022	Image CaptioningQuestion Answering	—Unverified
DistilDoc: Knowledge Distillation for Visually-Rich Document Applications	Jun 12, 2024	document-image-classificationDocument Image Classification	—Unverified
Multimodal Transformer With a Low-Computational-Cost Guarantee	Feb 23, 2024	Action RecognitionQuestion Answering	—Unverified
Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA	Jun 27, 2024	General KnowledgeQuestion Answering	—Unverified
Multimodal Unified Attention Networks for Vision-and-Language Interactions	Aug 12, 2019	Question AnsweringVisual Grounding	—Unverified
All You May Need for VQA are Image Captions	Jan 16, 2022	AllImage Captioning	—Unverified
All-in-one: Understanding and Generation in Multimodal Reasoning with the MAIA Benchmark	Feb 24, 2025	AllMultimodal Reasoning	—Unverified
Discovering Pathology Rationale and Token Allocation for Efficient Multimodal Pathology Reasoning	May 21, 2025	Computational EfficiencyDiagnostic	—Unverified
Directional Gradient Projection for Robust Fine-Tuning of Foundation Models	Feb 21, 2025	image-classificationImage Classification	—Unverified
Vision-Language Pretraining: Current Trends and the Future	May 1, 2022	Question AnsweringRepresentation Learning	—Unverified
DiN: Diffusion Model for Robust Medical VQA with Semantic Noisy Labels	Mar 24, 2025	Medical Visual Question AnsweringQuestion Answering	—Unverified
Multi-task Learning of Hierarchical Vision-Language Representation	Dec 3, 2018	Multi-Task LearningQuestion Answering	—Unverified
AlignVE: Visual Entailment Recognition Based on Alignment Relations	Nov 16, 2022	Question AnsweringRelation	—Unverified
Vision LLMs Are Bad at Hierarchical Visual Understanding, and LLMs Are the Bottleneck	May 30, 2025	Question AnsweringVisual Question Answering	—Unverified
MUST-VQA: MUltilingual Scene-text VQA	Sep 14, 2022	Question AnsweringVisual Question Answering	—Unverified
Alignment, Mining and Fusion: Representation Alignment with Hard Negative Mining and Selective Knowledge Fusion for Medical Visual Question Answering	Jan 1, 2025	Contrastive LearningMedical Visual Question Answering	—Unverified
Differentiable End-to-End Program Executor for Sample and Computationally Efficient VQA	Jan 1, 2021	Question AnsweringVisual Question Answering	—Unverified
MuVAM: A Multi-View Attention-based Model for Medical Visual Question Answering	Jul 7, 2021	Medical Visual Question AnsweringMissing Labels	—Unverified
MyVLM: Personalizing VLMs for User-Specific Queries	Mar 21, 2024	Image CaptioningLanguage Modelling	—Unverified
Vision-to-Language Tasks Based on Attributes and Attention Mechanism	May 29, 2019	Image CaptioningQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 26 of 44Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified