Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1151–1175 of 2177 papers

Title	Date	Tasks	Status
Instance-Level Trojan Attacks on Visual Question Answering via Adversarial Learning in Neuron Activation Space	Apr 2, 2023	Question AnsweringVisual Question Answering	—Unverified
Instruction-augmented Multimodal Alignment for Image-Text and Element Matching	Apr 16, 2025	Image AugmentationImage Generation	—Unverified
Instruction-Oriented Preference Alignment for Enhancing Multi-Modal Comprehension Capability of MLLMs	Mar 26, 2025	HallucinationHallucination Evaluation	—Unverified
Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models	Mar 8, 2025	Caption GenerationQuestion Answering	—Unverified
Integrating Knowledge and Reasoning in Image Understanding	Jun 24, 2019	Object RecognitionQuestion Answering	—Unverified
Integrating Object Detection Modality into Visual Language Model for Enhanced Autonomous Driving Agent	Nov 8, 2024	Autonomous DrivingLanguage Modeling	—Unverified
Interactive Attention AI to translate low light photos to captions for night scene understanding in women safety	Jan 4, 2022	DecoderDeep Learning	—Unverified
Interactive Visual Task Learning for Robots	Dec 20, 2023	Continual LearningNovel Concepts	—Unverified
InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output	Jul 3, 2024	ArticlesImage Comprehension	—Unverified
InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model	Jan 29, 2024	FormLanguage Modeling	—Unverified
Interpretable Bilingual Multimodal Large Language Model for Diverse Biomedical Tasks	Oct 24, 2024	image-classificationImage Classification	—Unverified
Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering	May 24, 2023	Question AnsweringVisual Question Answering	—Unverified
Interpretable Counting for Visual Question Answering	Dec 23, 2017	Question AnsweringVisual Question Answering	—Unverified
Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models	Jan 3, 2025	Binary ClassificationFace Anti-Spoofing	—Unverified
Interpretable Medical Image Visual Question Answering via Multi-Modal Relationship Graph Learning	Feb 19, 2023	Graph LearningMedical Visual Question Answering	—Unverified
Interpretable Neural Computation for Real-World Compositional Visual Question Answering	Oct 10, 2020	Question AnsweringVisual Question Answering	—Unverified
Interpretable Visual Question Answering Referring to Outside Knowledge	Mar 8, 2023	DiversityImage Captioning	—Unverified
Interpretable Visual Question Answering by Reasoning on Dependency Trees	Sep 6, 2018	Question Answeringvalid	—Unverified
Interpretable Visual Question Answering by Visual Grounding from Attention Supervision Mining	Aug 1, 2018	Question AnsweringVisual Grounding	—Unverified
Interpretable Visual Question Answering via Reasoning Supervision	Sep 7, 2023	Common Sense ReasoningQuestion Answering	—Unverified
Interpretable Visual Reasoning via Probabilistic Formulation under Natural Supervision	Aug 1, 2020	Question AnsweringVisual Question Answering	—Unverified
Inverse Visual Question Answering: A New Benchmark and VQA Diagnosis Tool	Mar 16, 2018	Question AnsweringReinforcement Learning	—Unverified
Inverse Visual Question Answering with Multi-Level Attentions	Sep 17, 2019	Question AnsweringVisual Question Answering	—Unverified
Investigating Biases in Textual Entailment Datasets	Jun 23, 2019	BIG-bench Machine LearningNatural Language Inference	—Unverified
ISAAQ -- Mastering Textbook Questions with Pre-trained Transformers and Bottom-Up and Top-Down Attention	Oct 1, 2020	Multiple-choiceQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 47 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified