Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1151–1175 of 2177 papers

Title	Date	Tasks	Status
Enhancing Generalization in Medical Visual Question Answering Tasks via Gradient-Guided Model Perturbation	Mar 5, 2024	Data AugmentationMedical Visual Question Answering	—Unverified
ViLMedic: a framework for research at the intersection of vision and language in medical AI	May 1, 2022	Medical Visual Question AnsweringQuestion Answering	—Unverified
Enhancing Explainability in Multimodal Large Language Models Using Ontological Context	Sep 27, 2024	Image CaptioningQuestion Answering	—Unverified
Enhancing Document Information Analysis with Multi-Task Pre-training: A Robust Approach for Information Extraction in Visually-Rich Documents	Oct 25, 2023	AllDocument Classification	—Unverified
MIMOQA: Multimodal Input Multimodal Output Question Answering	Jun 1, 2021	Question AnsweringVisual Question Answering	—Unverified
MindBench: A Comprehensive Benchmark for Mind Map Structure Recognition and Analysis	Jul 3, 2024	PositionQuestion Answering	—Unverified
Mindstorms in Natural Language-Based Societies of Mind	May 26, 2023	3D GenerationImage Captioning	—Unverified
Enhancing BERT-Based Visual Question Answering through Keyword-Driven Sentence Selection	Oct 13, 2023	Language ModelingLanguage Modelling	—Unverified
Enhanced Textual Feature Extraction for Visual Question Answering: A Simple Convolutional Approach	May 1, 2024	Computational EfficiencyQuestion Answering	—Unverified
Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering	Dec 30, 2024	Image CaptioningObject Recognition	—Unverified
Enforcing Reasoning in Visual Commonsense Reasoning	Oct 21, 2019	Question AnsweringReinforcement Learning	—Unverified
End-to-End Vision Tokenizer Tuning	May 15, 2025	Image GenerationQuestion Answering	—Unverified
Encyclopedic VQA: Visual questions about detailed properties of fine-grained categories	Jun 15, 2023	Question AnsweringRetrieval	—Unverified
Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation	Mar 12, 2022	Image CaptioningKnowledge Distillation	—Unverified
Where is this coming from? Making groundedness count in the evaluation of Document VQA models	Mar 24, 2025	Question AnsweringVisual Question Answering	—Unverified
Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation	Nov 16, 2021	Image CaptioningKnowledge Distillation	—Unverified
Mitigating Hallucination in Visual-Language Models via Re-Balancing Contrastive Decoding	Sep 10, 2024	HallucinationImage Captioning	—Unverified
EmoAssist: Emotional Assistant for Visual Impairment Community	Feb 13, 2025	Emotional IntelligenceQuestion Answering	—Unverified
Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy	Mar 26, 2025	HallucinationImage Captioning	—Unverified
Data-augmented phrase-level alignment for mitigating object hallucination	May 28, 2024	Data AugmentationHallucination	—Unverified
Mitigating the Impact of Attribute Editing on Face Recognition	Mar 12, 2024	AttributeFace Recognition	—Unverified
MIVC: Multiple Instance Visual Component for Visual-Language Models	Dec 28, 2023	Question AnsweringVisual Question Answering	—Unverified
Emerging Pixel Grounding in Large Multimodal Models Without Grounding Supervision	Oct 10, 2024	Question AnsweringVisual Question Answering	—Unverified
Embodied Scene Understanding for Vision Language Models via MetaVQA	Jan 15, 2025	Decision MakingQuestion Answering	—Unverified
Mixture of Rationale: Multi-Modal Reasoning Mixture for Visual Question Answering	Jun 3, 2024	DiversityQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 47 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified