Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1001–1025 of 2177 papers

Title	Date	Tasks	Status
Attention Guided Semantic Relationship Parsing for Visual Question Answering	Oct 5, 2020	ObjectQuestion Answering	—Unverified
Learning Sparse Mixture of Experts for Visual Question Answering	Sep 19, 2019	Mixture-of-ExpertsQuestion Answering	—Unverified
Generating Natural Language Explanations for Visual Question Answering using Scene Graphs and Visual Attention	Feb 15, 2019	Explanation GenerationLanguage Modeling	—Unverified
Generate then Select: Open-ended Visual Question Answering Guided by World Knowledge	May 30, 2023	Answer SelectionQuestion Answering	—Unverified
Explainable High-order Visual Question Reasoning: A New Benchmark and Knowledge-routed Network	Sep 23, 2019	Question AnsweringTriplet	—Unverified
Compositional Attention Networks for Interpretability in Natural Language Question Answering	Oct 30, 2018	Logical ReasoningQuestion Answering	—Unverified
Component Analysis for Visual Question Answering Architectures	Feb 12, 2020	Question AnsweringRepresentation Learning	—Unverified
Generalized Hadamard-Product Fusion Operators for Visual Question Answering	Mar 26, 2018	Neural Architecture SearchQuestion Answering	—Unverified
Generalization Differences between End-to-End and Neuro-Symbolic Vision-Language Reasoning Systems	Oct 26, 2022	Question AnsweringVisual Question Answering	—Unverified
DualNet: Domain-Invariant Network for Visual Question Answering	Jun 20, 2016	Question AnsweringVisual Question Answering	—Unverified
Learning to Disambiguate by Asking Discriminative Questions	Aug 9, 2017	BenchmarkingImage Captioning	—Unverified
Making the Most of What You Have: Adapting Pre-trained Visual Language Models in the Low-data Regime	May 3, 2023	Image CaptioningQuestion Answering	—Unverified
MAMO: Masked Multimodal Modeling for Fine-Grained Vision-Language Representation Learning	Oct 9, 2022	Image-text Retrievalmultimodal interaction	—Unverified
Ontology-based knowledge representation for bone disease diagnosis: a foundation for safe and sustainable medical artificial intelligence systems	Jun 5, 2025	DiagnosticMultimodal Deep Learning	—Unverified
Med-2E3: A 2D-Enhanced 3D Medical Multimodal Large Language Model	Nov 19, 2024	Language ModelingLanguage Modelling	—Unverified
BuDDIE: A Business Document Dataset for Multi-task Information Extraction	Apr 5, 2024	Document Classificationdocument understanding	—Unverified
Neural Reasoning, Fast and Slow, for Video Question Answering	Jul 10, 2019	Natural QuestionsQuestion Answering	—Unverified
Learning to Recognize the Unseen Visual Predicates	Sep 25, 2019	Question AnsweringVisual Question Answering	—Unverified
Learning to Select Question-Relevant Relations for Visual Question Answering	Jun 1, 2021	Graph AttentionQuestion Answering	—Unverified
Learning to Specialize with Knowledge Distillation for Visual Question Answering	Dec 1, 2018	General ClassificationGeneral Knowledge	—Unverified
Compact Tensor Pooling for Visual Question Answering	Jun 20, 2017	Question AnsweringVisual Question Answering	—Unverified
Learning Visual Knowledge Memory Networks for Visual Question Answering	Jun 13, 2018	Question AnsweringVisual Question Answering	—Unverified
Gender and Racial Bias in Visual Question Answering Datasets	May 17, 2022	Question AnsweringVisual Question Answering	—Unverified
Gemini Pro Defeated by GPT-4V: Evidence from Education	Dec 27, 2023	image-classificationImage Classification	—Unverified
M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding	Nov 7, 2024	document understandingOptical Character Recognition	—Unverified

Show:10 25 50

← PrevPage 41 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified