Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1976–2000 of 2177 papers

Title	Date	Tasks	Status
Bidirectional Contrastive Split Learning for Visual Question Answering	Aug 24, 2022	Adversarial AttackBackdoor Attack	—Unverified
Image Captioning with Compositional Neural Module Networks	Jul 10, 2020	Image CaptioningQuestion Answering	—Unverified
Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular Vision-Language Pre-training	Jan 11, 2022	DecoderImage Captioning	—Unverified
Image Manipulation via Multi-Hop Instructions -- A New Dataset and Weakly-Supervised Neuro-Symbolic Approach	May 23, 2023	Image ManipulationQuestion Answering	—Unverified
Image-of-Thought Prompting for Visual Reasoning Refinement in Multimodal Large Language Models	May 22, 2024	Multimodal ReasoningVisual Question Answering	—Unverified
Image Position Prediction in Multimodal Documents	May 1, 2020	ArticlesCaption Generation	—Unverified
Image Semantic Relation Generation	Oct 19, 2022	Image RetrievalImage Segmentation	—Unverified
ImageTTR: Grounding Type Theory with Records in Image Classification for Visual Question Answering	Jun 1, 2019	General Classificationimage-classification	—Unverified
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models	Aug 8, 2024	Contrastive LearningFine-Grained Image Recognition	—Unverified
γ-MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models	Oct 17, 2024	Visual Question Answering	—Unverified
Imperfect Vision Encoders: Efficient and Robust Tuning for Vision-Language Models	Jul 23, 2024	Computational EfficiencyImage Captioning	—Unverified
GiVE: Guiding Visual Encoder to Perceive Overlooked Information	Oct 26, 2024	ObjectQuestion Answering	—Unverified
Improved Alignment of Modalities in Large Vision Language Models	Mar 25, 2025	GPUImage Captioning	—Unverified
Improved Baselines for Data-efficient Perceptual Augmentation of LLMs	Mar 20, 2024	Audio captioningImage Captioning	—Unverified
GeoRSMLLM: A Multimodal Large Language Model for Vision-Language Tasks in Geoscience and Remote Sensing	Mar 16, 2025	Change DetectionImage Captioning	—Unverified
Improved Bilinear Pooling with CNNs	Jul 21, 2017	GPUQuestion Answering	—Unverified
Unified Multimodal Pre-training and Prompt-based Tuning for Vision-Language Understanding and Generation	Dec 10, 2021	Image-text matchingImage-text Retrieval	—Unverified
Are we asking the right questions in MovieQA?	Nov 8, 2019	Question AnsweringVisual Question Answering	—Unverified
Improving and Diagnosing Knowledge-Based Visual Question Answering via Entity Enhanced Knowledge Injection	Dec 13, 2021	Common Sense ReasoningKnowledge Graph Embeddings	—Unverified
Improving Automatic VQA Evaluation Using Large Language Models	Oct 4, 2023	In-Context LearningQuestion Answering	—Unverified
Improving Cross-Modal Understanding in Visual Dialog via Contrastive Learning	Apr 15, 2022	Contrastive LearningQuestion Answering	—Unverified
Improving Data Augmentation for Robust Visual Question Answering with Effective Curriculum Learning	Jan 28, 2024	Data AugmentationQuestion Answering	—Unverified
Improving mitosis detection on histopathology images using large vision-language models	Oct 11, 2023	Domain GeneralizationImage Captioning	—Unverified
Improving Multi-modal Large Language Model through Boosting Vision Capabilities	Oct 17, 2024	DecoderLanguage Modeling	—Unverified
GeoPix: Multi-Modal Large Language Model for Pixel-level Image Understanding in Remote Sensing	Jan 12, 2025	Image CaptioningLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 80 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified