Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1001–1050 of 2177 papers

Title	Date	Tasks	Status
American == White in Multimodal Language-and-Image AI	Jul 1, 2022	Image CaptioningQuestion Answering	—Unverified
Learning Sparse Mixture of Experts for Visual Question Answering	Sep 19, 2019	Mixture-of-ExpertsQuestion Answering	—Unverified
Abduction of Domain Relationships from Data for VQA	Feb 13, 2025	Question AnsweringVisual Question Answering	—Unverified
Learning Sparsity for Effective and Efficient Music Performance Question Answering	Jun 2, 2025	Audio-visual Question AnsweringQuestion Answering	—Unverified
Compound Tokens: Channel Fusion for Vision-Language Representation Learning	Dec 2, 2022	DecoderLanguage Modeling	—Unverified
Generating Triples with Adversarial Networks for Scene Graph Construction	Feb 7, 2018	Attributegraph construction	—Unverified
Compositional Memory for Visual Question Answering	Nov 18, 2015	Question AnsweringVisual Question Answering	—Unverified
Attention Mechanism based Cognition-level Scene Understanding	Apr 17, 2022	Question AnsweringScene Understanding	—Unverified
Generating Rationales in Visual Question Answering	Apr 4, 2020	Question AnsweringVisual Question Answering	—Unverified
DualNet: Domain-Invariant Network for Visual Question Answering	Jun 20, 2016	Question AnsweringVisual Question Answering	—Unverified
Generating Natural Questions from Images for Multimodal Assistants	Nov 17, 2020	Common Sense ReasoningNatural Questions	—Unverified
Attention Guided Semantic Relationship Parsing for Visual Question Answering	Oct 5, 2020	ObjectQuestion Answering	—Unverified
Adversarial Representation Learning for Text-to-Image Matching	Aug 28, 2019	Image CaptioningLanguage Modeling	—Unverified
Ontology-based knowledge representation for bone disease diagnosis: a foundation for safe and sustainable medical artificial intelligence systems	Jun 5, 2025	DiagnosticMultimodal Deep Learning	—Unverified
Generating Natural Language Explanations for Visual Question Answering using Scene Graphs and Visual Attention	Feb 15, 2019	Explanation GenerationLanguage Modeling	—Unverified
Generate then Select: Open-ended Visual Question Answering Guided by World Knowledge	May 30, 2023	Answer SelectionQuestion Answering	—Unverified
Neural Reasoning, Fast and Slow, for Video Question Answering	Jul 10, 2019	Natural QuestionsQuestion Answering	—Unverified
Learning to Recognize the Unseen Visual Predicates	Sep 25, 2019	Question AnsweringVisual Question Answering	—Unverified
Learning to Select Question-Relevant Relations for Visual Question Answering	Jun 1, 2021	Graph AttentionQuestion Answering	—Unverified
Learning to Specialize with Knowledge Distillation for Visual Question Answering	Dec 1, 2018	General ClassificationGeneral Knowledge	—Unverified
Explainable High-order Visual Question Reasoning: A New Benchmark and Knowledge-routed Network	Sep 23, 2019	Question AnsweringTriplet	—Unverified
Learning Visual Knowledge Memory Networks for Visual Question Answering	Jun 13, 2018	Question AnsweringVisual Question Answering	—Unverified
Compositional Attention Networks for Interpretability in Natural Language Question Answering	Oct 30, 2018	Logical ReasoningQuestion Answering	—Unverified
Component Analysis for Visual Question Answering Architectures	Feb 12, 2020	Question AnsweringRepresentation Learning	—Unverified
Generalized Hadamard-Product Fusion Operators for Visual Question Answering	Mar 26, 2018	Neural Architecture SearchQuestion Answering	—Unverified
Generalization Differences between End-to-End and Neuro-Symbolic Vision-Language Reasoning Systems	Oct 26, 2022	Question AnsweringVisual Question Answering	—Unverified
MF2-MVQA: A Multi-stage Feature Fusion method for Medical Visual Question Answering	Nov 11, 2022	Medical Visual Question AnsweringQuestion Answering	—Unverified
Compact Tensor Pooling for Visual Question Answering	Jun 20, 2017	Question AnsweringVisual Question Answering	—Unverified
Gender and Racial Bias in Visual Question Answering Datasets	May 17, 2022	Question AnsweringVisual Question Answering	—Unverified
Measuring CLEVRness: Black-box Testing of Visual Reasoning Models	Sep 29, 2021	BenchmarkingDiagnostic	—Unverified
Gemini Pro Defeated by GPT-4V: Evidence from Education	Dec 27, 2023	image-classificationImage Classification	—Unverified
Measuring CLEVRness: Blackbox testing of Visual Reasoning Models	Feb 24, 2022	BenchmarkingDiagnostic	—Unverified
GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning	Jun 22, 2025	Answer GenerationDecision Making	—Unverified
GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis	Nov 25, 2024	Medical Visual Question AnsweringMultiple-choice	—Unverified
A Thousand Words Are Worth More Than a Picture: Natural Language-Centric Outside-Knowledge Visual Question Answering	Jan 14, 2022	Generative Question AnsweringImage to text	—Unverified
Measuring Machine Intelligence Through Visual Question Answering	Aug 31, 2016	Image CaptioningQuestion Answering	—Unverified
GC-KBVQA: A New Four-Stage Framework for Enhancing Knowledge Based Visual Question Answering Performance	May 25, 2025	Caption GenerationQuestion Answering	—Unverified
Combining Knowledge Graph and LLMs for Enhanced Zero-shot Visual Question Answering	Jan 22, 2025	Knowledge GraphsQuestion Answering	—Unverified
Gamified crowd-sourcing of high-quality data for visual fine-tuning	Oct 5, 2024	Visual Question Answering	—Unverified
All You May Need for VQA are Image Captions	Jan 16, 2022	AllImage Captioning	—Unverified
AdaDARE-gamma: Balancing Stability and Plasticity in Multi-modal LLMs through Efficient Adaptation	Jan 1, 2025	Image CaptioningQuestion Answering	—Unverified
FVQA: Fact-based Visual Question Answering	Jun 17, 2016	Common Sense ReasoningQuestion Answering	—Unverified
FVQA 2.0: Introducing Adversarial Samples into Fact-based Visual Question Answering	Mar 19, 2023	Common Sense ReasoningInformation Retrieval	—Unverified
Fusion of Domain-Adapted Vision and Language Models for Medical Visual Question Answering	Apr 24, 2024	Language ModelingLanguage Modelling	—Unverified
Fusion of Detected Objects in Text for Visual Question Answering	Aug 14, 2019	Question AnsweringVisual Commonsense Reasoning	—Unverified
COIN: Counterfactual Image Generation for VQA Interpretation	Jan 10, 2022	counterfactualImage Generation	—Unverified
A survey on VQA_Datasets and Approaches	May 2, 2021	Question AnsweringSurvey	—Unverified
Med-2E3: A 2D-Enhanced 3D Medical Multimodal Large Language Model	Nov 19, 2024	Language ModelingLanguage Modelling	—Unverified
FunBench: Benchmarking Fundus Reading Skills of MLLMs	Mar 2, 2025	AnatomyBenchmarking	—Unverified
AdaCoder: Adaptive Prompt Compression for Programmatic Visual Question Answering	Jul 28, 2024	Question AnsweringVisual Question Answering	—Unverified

Show:10 25 50

← PrevPage 21 of 44Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified