Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 901–925 of 2177 papers

Title	Date	Tasks	Status	Score
CLEVR-Ref+: Diagnosing Visual Reasoning with Referring Expressions	Jan 3, 2019	DiagnosticImage Segmentation	CodeCode Available	5
Few-Shot Multimodal Explanation for Visual Question Answering	Oct 28, 2024	Explainable artificial intelligenceExplainable Artificial Intelligence (XAI)	CodeCode Available	5
CLEVR\_HYP: A Challenge Dataset and Baselines for Visual Question Answering with Hypothetical Actions over Images	Jun 1, 2021	Question AnsweringVisual Question Answering	CodeCode Available	5
Active Learning for Visual Question Answering: An Empirical Study	Nov 6, 2017	Active LearningVisual Question Answering	CodeCode Available	5
FEDMEKI: A Benchmark for Scaling Medical Foundation Models via Federated Knowledge Injection	Aug 17, 2024	Federated LearningMedical Visual Question Answering	CodeCode Available	5
Federated Document Visual Question Answering: A Pilot Study	May 10, 2024	Federated LearningQuestion Answering	CodeCode Available	5
CLEVR_HYP: A Challenge Dataset and Baselines for Visual Question Answering with Hypothetical Actions over Images	Apr 13, 2021	Question AnsweringVisual Question Answering	CodeCode Available	5
Ask Your Neurons: A Deep Learning Approach to Visual Question Answering	May 9, 2016	Question AnsweringVisual Question Answering	CodeCode Available	5
Mixture-of-Subspaces in Low-Rank Adaptation	Jun 16, 2024	Common Sense ReasoningImage Generation	CodeCode Available	5
IQA: Visual Question Answering in Interactive Environments	Dec 9, 2017	NavigateReinforcement Learning	CodeCode Available	5
Factor Graph Attention	Apr 11, 2019	Graph AttentionQuestion Answering	CodeCode Available	5
Detecting Knowledge Boundary of Vision Large Language Models by Sampling-Based Inference	Feb 25, 2025	Question AnsweringRAG	CodeCode Available	5
CLEAR: A Dataset for Compositional Language and Elementary Acoustic Reasoning	Nov 26, 2018	Acoustic Question AnsweringQuestion Answering	CodeCode Available	5
MIRTT: Learning Multimodal Interaction Representations from Trilinear Transformers for Visual Question Answering	Nov 1, 2021	multimodal interactionMultiple-choice	CodeCode Available	5
Exploring the Effect of Primitives for Compositional Generalization in Vision-and-Language	Jan 1, 2023	Question AnsweringSelf-Supervised Learning	CodeCode Available	5
Is Multimodal Vision Supervision Beneficial to Language?	Feb 10, 2023	Image RetrievalNatural Language Understanding	CodeCode Available	5
MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding	Jan 11, 2020	Image CaptioningImage-text Retrieval	CodeCode Available	5
Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering	Nov 17, 2015	Image CaptioningQuestion Answering	CodeCode Available	5
Med-PMC: Medical Personalized Multi-modal Consultation with a Proactive Ask-First-Observe-Next Paradigm	Aug 16, 2024	Decision MakingMedical Visual Question Answering	CodeCode Available	5
Modularized Zero-shot VQA with Pre-trained Models	May 27, 2023	object-detectionObject Detection	CodeCode Available	5
Exploring Modulated Detection Transformer as a Tool for Action Recognition in Videos	Sep 21, 2022	Action DetectionAction Recognition	CodeCode Available	5
A simple neural network module for relational reasoning	Jun 5, 2017	Image Retrieval with Multi-Modal QueryQuestion Answering	CodeCode Available	5
MedHallTune: An Instruction-Tuning Benchmark for Mitigating Medical Hallucination in Vision-Language Models	Feb 28, 2025	Decision MakingHallucination	CodeCode Available	5
A Simple Loss Function for Improving the Convergence and Accuracy of Visual Question Answering Models	Aug 2, 2017	Question AnsweringVisual Question Answering	CodeCode Available	5
A Simple Baseline for Knowledge-Based Visual Question Answering	Oct 20, 2023	In-Context LearningQuestion Answering	CodeCode Available	5

Show:10 25 50

← PrevPage 37 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified