Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 876–900 of 2177 papers

Title	Date	Tasks	Status	Score
Co-attending Free-form Regions and Detections with Multi-modal Multiplicative Feature Embedding for Visual Question Answering	Nov 18, 2017	FormVisual Question Answering	CodeCode Available	5
Deep Modular Co-Attention Networks for Visual Question Answering	Jun 25, 2019	Question AnsweringVisual Question Answering	CodeCode Available	5
Focal Visual-Text Attention for Visual Question Answering	Jun 5, 2018	Memex Question AnsweringQuestion Answering	CodeCode Available	5
MQA: Answering the Question via Robotic Manipulation	Mar 10, 2020	Imitation LearningQuestion Answering	CodeCode Available	5
Focal Visual-Text Attention for Memex Question Answering	Dec 14, 2018	Memex Question AnsweringQuestion Answering	CodeCode Available	5
CluMo: Cluster-based Modality Fusion Prompt for Continual Learning in Visual Question Answering	Aug 21, 2024	Continual LearningQuestion Answering	CodeCode Available	5
FM2DS: Few-Shot Multimodal Multihop Data Synthesis with Knowledge Distillation for Question Answering	Dec 9, 2024	Knowledge DistillationQuestion Answering	CodeCode Available	5
Alignment Attention by Matching Key and Query Distributions	Oct 25, 2021	Graph AttentionQuestion Answering	CodeCode Available	5
Modularized Zero-shot VQA with Pre-trained Models	May 27, 2023	object-detectionObject Detection	CodeCode Available	5
Modulating early visual processing by language	Jul 2, 2017	Question AnsweringVisual Question Answering	CodeCode Available	5
Structured Triplet Learning with POS-tag Guided Attention for Visual Question Answering	Jan 24, 2018	Multiple-choicePOS	CodeCode Available	5
MM-PoE: Multiple Choice Reasoning via. Process of Elimination using Multi-Modal Models	Dec 10, 2024	Multiple-choiceQuestion Answering	CodeCode Available	5
Aligning Visual Regions and Textual Concepts for Semantic-Grounded Image Representations	May 15, 2019	Image CaptioningQuestion Answering	CodeCode Available	5
MM-Prompt: Cross-Modal Prompt Tuning for Continual Visual Question Answering	May 26, 2025	Continual LearningQuestion Answering	CodeCode Available	5
ClinKD: Cross-Modal Clinical Knowledge Distiller For Multi-Task Medical Images	Feb 9, 2025	Clinical KnowledgeMedical Visual Question Answering	CodeCode Available	5
Probabilistic Embeddings for Frozen Vision-Language Models: Uncertainty Quantification with Gaussian Process Latent Variable Models	May 8, 2025	Active Learningcross-modal alignment	CodeCode Available	5
Mixture-of-Subspaces in Low-Rank Adaptation	Jun 16, 2024	Common Sense ReasoningImage Generation	CodeCode Available	5
Filling the Image Information Gap for VQA: Prompting Large Language Models to Proactively Ask Questions	Nov 20, 2023	Question AnsweringVisual Question Answering	CodeCode Available	5
CLEVR-Ref+: Diagnosing Visual Reasoning with Referring Expressions	Jan 3, 2019	DiagnosticImage Segmentation	CodeCode Available	5
MIRTT: Learning Multimodal Interaction Representations from Trilinear Transformers for Visual Question Answering	Nov 1, 2021	multimodal interactionMultiple-choice	CodeCode Available	5
Few-Shot Multimodal Explanation for Visual Question Answering	Oct 28, 2024	Explainable artificial intelligenceExplainable Artificial Intelligence (XAI)	CodeCode Available	5
CLEVR\_HYP: A Challenge Dataset and Baselines for Visual Question Answering with Hypothetical Actions over Images	Jun 1, 2021	Question AnsweringVisual Question Answering	CodeCode Available	5
Active Learning for Visual Question Answering: An Empirical Study	Nov 6, 2017	Active LearningVisual Question Answering	CodeCode Available	5
FEDMEKI: A Benchmark for Scaling Medical Foundation Models via Federated Knowledge Injection	Aug 17, 2024	Federated LearningMedical Visual Question Answering	CodeCode Available	5
Federated Document Visual Question Answering: A Pilot Study	May 10, 2024	Federated LearningQuestion Answering	CodeCode Available	5

Show:10 25 50

← PrevPage 36 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified