Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1276–1300 of 2177 papers

Title	Date	Tasks	Status
A Multimodal Memes Classification: A Survey and Open Research Issues	Sep 17, 2020	ClassificationGeneral Classification	—Unverified
Diversity and Consistency: Exploring Visual Question-Answer Pair Generation	Nov 1, 2021	DiversityQuestion Answering	—Unverified
Diversifying Joint Vision-Language Tokenization Learning	Jun 6, 2023	Question AnsweringRepresentation Learning	—Unverified
Multimodal Representations for Teacher-Guided Compositional Visual Reasoning	Oct 24, 2023	Question AnsweringVisual Question Answering	—Unverified
Multimodal Reranking for Knowledge-Intensive Visual Question Answering	Jul 17, 2024	Answer GenerationQuestion Answering	—Unverified
American == White in Multimodal Language-and-Image AI	Jul 1, 2022	Image CaptioningQuestion Answering	—Unverified
DistilDoc: Knowledge Distillation for Visually-Rich Document Applications	Jun 12, 2024	document-image-classificationDocument Image Classification	—Unverified
Multimodal Transformer With a Low-Computational-Cost Guarantee	Feb 23, 2024	Action RecognitionQuestion Answering	—Unverified
Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA	Jun 27, 2024	General KnowledgeQuestion Answering	—Unverified
Multimodal Unified Attention Networks for Vision-and-Language Interactions	Aug 12, 2019	Question AnsweringVisual Grounding	—Unverified
All You May Need for VQA are Image Captions	Jan 16, 2022	AllImage Captioning	—Unverified
All-in-one: Understanding and Generation in Multimodal Reasoning with the MAIA Benchmark	Feb 24, 2025	AllMultimodal Reasoning	—Unverified
Discovering Pathology Rationale and Token Allocation for Efficient Multimodal Pathology Reasoning	May 21, 2025	Computational EfficiencyDiagnostic	—Unverified
Directional Gradient Projection for Robust Fine-Tuning of Foundation Models	Feb 21, 2025	image-classificationImage Classification	—Unverified
Vision-Language Pretraining: Current Trends and the Future	May 1, 2022	Question AnsweringRepresentation Learning	—Unverified
DiN: Diffusion Model for Robust Medical VQA with Semantic Noisy Labels	Mar 24, 2025	Medical Visual Question AnsweringQuestion Answering	—Unverified
Multi-task Learning of Hierarchical Vision-Language Representation	Dec 3, 2018	Multi-Task LearningQuestion Answering	—Unverified
AlignVE: Visual Entailment Recognition Based on Alignment Relations	Nov 16, 2022	Question AnsweringRelation	—Unverified
Vision LLMs Are Bad at Hierarchical Visual Understanding, and LLMs Are the Bottleneck	May 30, 2025	Question AnsweringVisual Question Answering	—Unverified
MUST-VQA: MUltilingual Scene-text VQA	Sep 14, 2022	Question AnsweringVisual Question Answering	—Unverified
Alignment, Mining and Fusion: Representation Alignment with Hard Negative Mining and Selective Knowledge Fusion for Medical Visual Question Answering	Jan 1, 2025	Contrastive LearningMedical Visual Question Answering	—Unverified
Differentiable End-to-End Program Executor for Sample and Computationally Efficient VQA	Jan 1, 2021	Question AnsweringVisual Question Answering	—Unverified
MuVAM: A Multi-View Attention-based Model for Medical Visual Question Answering	Jul 7, 2021	Medical Visual Question AnsweringMissing Labels	—Unverified
MyVLM: Personalizing VLMs for User-Specific Queries	Mar 21, 2024	Image CaptioningLanguage Modelling	—Unverified
Vision-to-Language Tasks Based on Attributes and Attention Mechanism	May 29, 2019	Image CaptioningQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 52 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified