Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–675 of 2177 papers

Title	Date	Tasks	Status	Score
DLaVA: Document Language and Vision Assistant for Answer Localization with Enhanced Interpretability and Trustworthiness	Nov 29, 2024	Optical Character Recognition (OCR)Question Answering	CodeCode Available	5
Answering Questions about Data Visualizations using Efficient Bimodal Fusion	Aug 5, 2019	Chart Question AnsweringOptical Character Recognition	CodeCode Available	5
OG-SGG: Ontology-Guided Scene Graph Generation. A Case Study in Transfer Learning for Telepresence Robotics	Feb 21, 2022	BIG-bench Machine LearningGraph Generation	CodeCode Available	5
Answering Diverse Questions via Text Attached with Key Audio-Visual Clues	Mar 11, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	CodeCode Available	5
Object Attribute Matters in Visual Question Answering	Dec 20, 2023	AttributeGraph Neural Network	CodeCode Available	5
BioD2C: A Dual-level Semantic Consistency Constraint Framework for Biomedical VQA	Mar 4, 2025	Medical DiagnosisQuestion Answering	CodeCode Available	5
Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning	Mar 6, 2020	Density EstimationNoise Estimation	CodeCode Available	5
Discrete Subgraph Sampling for Interpretable Graph based Visual Question Answering	Dec 11, 2024	Explainable artificial intelligenceExplainable Artificial Intelligence (XAI)	CodeCode Available	5
Discovering the Unknown Knowns: Turning Implicit Knowledge in the Dataset into Explicit Training Examples for Visual Question Answering	Sep 13, 2021	Data AugmentationQuestion Answering	CodeCode Available	5
BinaryVQA: A Versatile Test Set to Evaluate the Out-of-Distribution Generalization of VQA Models	Jan 28, 2023	Out-of-Distribution GeneralizationQuestion Answering	CodeCode Available	5
Neural Module Networks	Nov 9, 2015	Visual Question AnsweringVisual Question Answering (VQA)	CodeCode Available	5
Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding	Oct 4, 2018	Question AnsweringRepresentation Learning	CodeCode Available	5
Diffusion-Refined VQA Annotations for Semi-Supervised Gaze Following	Jun 4, 2024	Question AnsweringVisual Question Answering	CodeCode Available	5
NeSyCoCo: A Neuro-Symbolic Concept Composer for Compositional Generalization	Dec 20, 2024	Compositional Generalization (AVG)Novel Concepts	CodeCode Available	5
No Images, No Problem: Retaining Knowledge in Continual VQA with Questions-Only Memory	Feb 6, 2025	Continual LearningQuestion Answering	CodeCode Available	5
OmniFusion Technical Report	Apr 9, 2024	MM-VetTextVQA	CodeCode Available	5
Difficult Task Yes but Simple Task No: Unveiling the Laziness in Multimodal LLMs	Oct 15, 2024	Image DescriptionMultiple-choice	CodeCode Available	5
Differential Attention for Visual Question Answering	Apr 1, 2018	Question AnsweringVisual Question Answering	CodeCode Available	5
Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis	Feb 11, 2023	Image-text RetrievalKnowledge Graphs	CodeCode Available	5
MUTAN: Multimodal Tucker Fusion for Visual Question Answering	May 18, 2017	Visual Question AnsweringVisual Question Answering (VQA)	CodeCode Available	5
NAAQA: A Neural Architecture for Acoustic Question Answering	Jun 11, 2021	Acoustic Question AnsweringQuestion Answering	CodeCode Available	5
Did the Model Understand the Question?	May 14, 2018	modelQuestion Answering	CodeCode Available	5
MUREL: Multimodal Relational Reasoning for Visual Question Answering	Feb 25, 2019	Relational ReasoningVisual Question Answering	CodeCode Available	5
Multi-Sourced Compositional Generalization in Visual Question Answering	May 29, 2025	Question AnsweringVisual Question Answering	CodeCode Available	5
Detecting Knowledge Boundary of Vision Large Language Models by Sampling-Based Inference	Feb 25, 2025	Question AnsweringRAG	CodeCode Available	5

Show:10 25 50

← PrevPage 27 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified