Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 951–975 of 2177 papers

Title	Date	Tasks	Status
Connecting Language and Vision to Actions	Jul 1, 2018	Image CaptioningLanguage Modeling	—Unverified
Attentive Explanations: Justifying Decisions and Pointing to the Evidence	Dec 14, 2016	Decision MakingQuestion Answering	—Unverified
DLIP: Distilling Language-Image Pre-training	Aug 24, 2023	Image CaptioningImage-text Retrieval	—Unverified
Generating Question Relevant Captions to Aid Visual Question Answering	Jun 3, 2019	General KnowledgeImage Captioning	—Unverified
KVQA: Knowledge-Aware Visual Question Answering	Jul 17, 2019	Knowledge GraphsQuestion Answering	—Unverified
GeoRSMLLM: A Multimodal Large Language Model for Vision-Language Tasks in Geoscience and Remote Sensing	Mar 16, 2025	Change DetectionImage Captioning	—Unverified
GeoPix: Multi-Modal Large Language Model for Pixel-level Image Understanding in Remote Sensing	Jan 12, 2025	Image CaptioningLanguage Modeling	—Unverified
Language bias in Visual Question Answering: A Survey and Taxonomy	Nov 16, 2021	Question AnsweringVisual Question Answering	—Unverified
Attention Overlap Is Responsible for The Entity Missing Problem in Text-to-image Diffusion Models!	Oct 28, 2024	DenoisingQuestion Answering	—Unverified
A Multimodal Memes Classification: A Survey and Open Research Issues	Sep 17, 2020	ClassificationGeneral Classification	—Unverified
Language-Image Models with 3D Understanding	May 6, 2024	Question AnsweringVisual Question Answering	—Unverified
LLaVA-Ultra: Large Chinese Language and Vision Assistant for Ultrasound	Oct 19, 2024	Instruction FollowingKnowledge Distillation	—Unverified
Compressing Visual-linguistic Model via Knowledge Distillation	Apr 5, 2021	Image CaptioningKnowledge Distillation	—Unverified
Generic Attention-model Explainability by Weighted Relevance Accumulation	Aug 20, 2023	Image CaptioningQuestion Answering	—Unverified
Generative Visual Question Answering	Jul 18, 2023	Generative Visual Question AnsweringQuestion Answering	—Unverified
American == White in Multimodal Language-and-Image AI	Jul 1, 2022	Image CaptioningQuestion Answering	—Unverified
Abduction of Domain Relationships from Data for VQA	Feb 13, 2025	Question AnsweringVisual Question Answering	—Unverified
Compound Tokens: Channel Fusion for Vision-Language Representation Learning	Dec 2, 2022	DecoderLanguage Modeling	—Unverified
Does my multimodal model learn cross-modal interactions? It's harder to tell than you might think!	Oct 13, 2020	DiagnosticImage-text Classification	—Unverified
Generating Triples with Adversarial Networks for Scene Graph Construction	Feb 7, 2018	Attributegraph construction	—Unverified
Compositional Memory for Visual Question Answering	Nov 18, 2015	Question AnsweringVisual Question Answering	—Unverified
Attention Mechanism based Cognition-level Scene Understanding	Apr 17, 2022	Question AnsweringScene Understanding	—Unverified
LLaVA-Octopus: Unlocking Instruction-Driven Adaptive Projector Fusion for Video Understanding	Jan 9, 2025	Language ModelingLanguage Modelling	—Unverified
Generating Rationales in Visual Question Answering	Apr 4, 2020	Question AnsweringVisual Question Answering	—Unverified
Generating Natural Questions from Images for Multimodal Assistants	Nov 17, 2020	Common Sense ReasoningNatural Questions	—Unverified

Show:10 25 50

← PrevPage 39 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified