Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 626–650 of 2177 papers

Title	Date	Tasks	Status
Building Trustworthy Multimodal AI: A Review of Fairness, Transparency, and Ethics in Vision-Language Tasks	Apr 14, 2025	EthicsFairness	—Unverified
DUBLIN -- Document Understanding By Language-Image Network	May 23, 2023	Document Classificationdocument understanding	—Unverified
BuDDIE: A Business Document Dataset for Multi-task Information Extraction	Apr 5, 2024	Document Classificationdocument understanding	—Unverified
How Much Can CLIP Benefit Vision-and-Language Tasks?	Sep 29, 2021	Question AnsweringVisual Entailment	—Unverified
Adversarial Representation Learning for Text-to-Image Matching	Aug 28, 2019	Image CaptioningLanguage Modeling	—Unverified
AntiGrounding: Lifting Robotic Actions into VLM Representation Space for Decision Making	Jun 14, 2025	Decision MakingQuestion Answering	—Unverified
Ontology-based knowledge representation for bone disease diagnosis: a foundation for safe and sustainable medical artificial intelligence systems	Jun 5, 2025	DiagnosticMultimodal Deep Learning	—Unverified
DualNet: Domain-Invariant Network for Visual Question Answering	Jun 20, 2016	Question AnsweringVisual Question Answering	—Unverified
Bridging the Semantic Gaps: Improving Medical VQA Consistency with LLM-Augmented Question Sets	Apr 16, 2025	DiversityMedical Visual Question Answering	—Unverified
Dual Capsule Attention Mask Network with Mutual Learning for Visual Question Answering	Oct 1, 2022	Question AnsweringVisual Question Answering	—Unverified
Bridge Damage Cause Estimation Using Multiple Images Based on Visual Question Answering	Feb 18, 2023	Question AnsweringVisual Question Answering	—Unverified
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites	Apr 25, 2024	4kLanguage Modeling	—Unverified
Breaking Neural Network Scaling Laws with Modularity	Sep 9, 2024	Question AnsweringVisual Question Answering	—Unverified
DreamSync: Aligning Text-to-Image Generation with Image Understanding Feedback	Nov 29, 2023	Image GenerationQuestion Answering	—Unverified
Breaking Down Questions for Outside-Knowledge Visual Question Answering	Nov 16, 2021	Graph Neural NetworkQuestion Answering	—Unverified
Answer-Type Prediction for Visual Question Answering	Jun 1, 2016	Object RecognitionPrediction	—Unverified
How good are deep models in understanding the generated images?	Aug 23, 2022	ObjectObject Recognition	—Unverified
How to Design Sample and Computationally Efficient VQA Models	Mar 22, 2021	Question AnsweringVisual Question Answering	—Unverified
Breaking Down Questions for Outside-Knowledge VQA	Sep 29, 2021	Graph Neural NetworkQuestion Answering	—Unverified
Double Visual Defense: Adversarial Pre-training and Instruction Tuning for Improving Vision-Language Model Robustness	Jan 16, 2025	Adversarial DefenseAdversarial Robustness	—Unverified
Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional Images	Mar 13, 2023	Common Sense ReasoningExplanation Generation	—Unverified
Adversarial Multimodal Network for Movie Question Answering	Jun 24, 2019	Question AnsweringVideo Question Answering	—Unverified
Domain-robust VQA with diverse datasets and methods but no target labels	Mar 29, 2021	Domain AdaptationObject Recognition	—Unverified
Hierarchical Modeling for Medical Visual Question Answering with Cross-Attention Fusion	Apr 4, 2025	DiagnosticMedical Visual Question Answering	—Unverified
Domain Adaptation of VLM for Soccer Video Understanding	May 20, 2025	Action ClassificationDomain Adaptation	—Unverified

Show:10 25 50

← PrevPage 26 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified