Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–550 of 2177 papers

Title	Date	Tasks	Status	Hype
Bridging the Gap between 2D and 3D Visual Question Answering: A Fusion Approach for 3D VQA	Feb 24, 2024	3D Question Answering (3D-QA)Question Answering	CodeCode Available	1
Learning to Discretely Compose Reasoning Module Networks for Video Captioning	Jul 17, 2020	DecoderQuestion Answering	CodeCode Available	1
LXMERT: Learning Cross-Modality Encoder Representations from Transformers	Aug 20, 2019	Language ModelingLanguage Modelling	CodeCode Available	1
Knowledge-Routed Visual Question Reasoning: Challenges for Deep Representation Embedding	Dec 14, 2020	Question AnsweringVisual Question Answering	CodeCode Available	1
JDocQA: Japanese Document Question Answering Dataset for Generative Language Models	Mar 28, 2024	HallucinationQuestion Answering	CodeCode Available	1
Towards Vision-Language Mechanistic Interpretability: A Causal Tracing Tool for BLIP	Aug 27, 2023	Question AnsweringText Generation	CodeCode Available	1
Just Ask: Learning to Answer Questions from Millions of Narrated Videos	Dec 1, 2020	Question AnsweringQuestion Generation	CodeCode Available	1
TVLT: Textless Vision-Language Transformer	Sep 28, 2022	Automatic Speech Recognition (ASR)Image Retrieval	CodeCode Available	1
UniBiomed: A Universal Foundation Model for Grounded Biomedical Image Interpretation	Apr 30, 2025	DiagnosticLarge Language Model	CodeCode Available	1
Kosmos-2: Grounding Multimodal Large Language Models to the World	Jun 26, 2023	Image CaptioningIn-Context Learning	CodeCode Available	1
CausalChaos! Dataset for Comprehensive Causal Action Question Answering Over Longer Causal Chains Grounded in Dynamic Visual Scenes	Apr 1, 2024	Causal DiscoveryCausal Discovery in Video Reasoning	CodeCode Available	1
Investigating Prompting Techniques for Zero- and Few-Shot Visual Question Answering	Jun 16, 2023	Image CaptioningQuestion Answering	CodeCode Available	1
A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning	Oct 1, 2024	Common Sense ReasoningDeepFake Detection	CodeCode Available	1
Label-Descriptive Patterns and Their Application to Characterizing Classification Errors	Oct 18, 2021	Descriptivenamed-entity-recognition	CodeCode Available	1
InstructionGPT-4: A 200-Instruction Paradigm for Fine-Tuning MiniGPT-4	Aug 23, 2023	Instruction FollowingQuestion Answering	CodeCode Available	1
Instruction-Guided Visual Masking	May 30, 2024	Instruction FollowingVisual Grounding	CodeCode Available	1
Can We Talk Models Into Seeing the World Differently?	Mar 14, 2024	Image CaptioningImage Classification	CodeCode Available	1
Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning	Dec 4, 2024	Multimodal Large Language ModelVideo Understanding	CodeCode Available	1
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks	Dec 21, 2023	Image RetrievalImage-to-Text Retrieval	CodeCode Available	1
In Defense of Grid Features for Visual Question Answering	Jan 10, 2020	Image CaptioningQuestion Answering	CodeCode Available	1
Are Vision Language Models Ready for Clinical Diagnosis? A 3D Medical Benchmark for Tumor-centric Visual Question Answering	May 25, 2025	AnatomyBenchmarking	CodeCode Available	1
INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model	Jul 23, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
IllusionVQA: A Challenging Optical Illusion Dataset for Vision Language Models	Mar 23, 2024	Common Sense ReasoningIn-Context Learning	CodeCode Available	1
3D-Aware Visual Question Answering about Parts, Poses and Occlusions	Oct 27, 2023	Question AnsweringVisual Question Answering	CodeCode Available	1
IMPACT: A Large-scale Integrated Multimodal Patent Analysis and Creation Dataset for Design Patents	Dec 10, 2024	Cross-Modal RetrievalImage Classification	CodeCode Available	1
InfMLLM: A Unified Framework for Visual-Language Tasks	Nov 12, 2023	GPUImage Captioning	CodeCode Available	1
Interpreting Chest X-rays Like a Radiologist: A Benchmark with Clinical Reasoning	May 29, 2025	DiagnosticQuestion Answering	CodeCode Available	1
LaKo: Knowledge-driven Visual Question Answering via Late Knowledge-to-Text Injection	Jul 26, 2022	DecoderKnowledge Graphs	CodeCode Available	1
HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models	Mar 20, 2024	MMEVisual Question Answering	CodeCode Available	1
How to Configure Good In-Context Sequence for Visual Question Answering	Dec 4, 2023	In-Context LearningQuestion Answering	CodeCode Available	1
I2I: Initializing Adapters with Improvised Knowledge	Apr 4, 2023	Continual LearningQuestion Answering	CodeCode Available	1
Hierarchical multimodal transformers for Multi-Page DocVQA	Dec 7, 2022	DecoderQuestion Answering	CodeCode Available	1
HaloQuest: A Visual Hallucination Dataset for Advancing Multimodal Reasoning	Jul 22, 2024	BenchmarkingHallucination	CodeCode Available	1
Hierarchical Question-Image Co-Attention for Visual Question Answering	May 31, 2016	Visual DialogVisual Question Answering	CodeCode Available	1
HAAR: Text-Conditioned Generative Model of 3D Strand-based Human Hairstyles	Dec 18, 2023	Question AnsweringVisual Question Answering	CodeCode Available	1
EHRXQA: A Multi-Modal Question Answering Dataset for Electronic Health Records with Chest X-ray Images	Oct 28, 2023	Decision MakingMedical Visual Question Answering	CodeCode Available	1
Hallucination Augmented Contrastive Learning for Multimodal Large Language Model	Dec 12, 2023	Contrastive LearningHallucination	CodeCode Available	1
How Do Multimodal Large Language Models Handle Complex Multimodal Reasoning? Placing Them in An Extensible Escape Game	Mar 13, 2025	Multimodal ReasoningQuestion Answering	CodeCode Available	1
I Can't Believe There's No Images! Learning Visual Tasks Using only Language Supervision	Nov 17, 2022	Image CaptioningQuestion Answering	CodeCode Available	1
How Much Can CLIP Benefit Vision-and-Language Tasks?	Jul 13, 2021	Question AnsweringVision and Language Navigation	CodeCode Available	1
EgoThink: Evaluating First-Person Perspective Thinking Capability of Vision-Language Models	Nov 27, 2023	AttributeQuestion Answering	CodeCode Available	1
Hypergraph Transformer: Weakly-supervised Multi-hop Reasoning for Knowledge-based Visual Question Answering	Apr 22, 2022	Question AnsweringVisual Question Answering	CodeCode Available	1
Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?	Feb 23, 2023	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1
GRIT: General Robust Image Task Benchmark	Apr 28, 2022	Instance SegmentationKeypoint Detection	CodeCode Available	1
IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages	Jan 27, 2022	Cross-Modal RetrievalFew-Shot Learning	CodeCode Available	1
Graph Optimal Transport for Cross-Domain Alignment	Jun 26, 2020	Graph MatchingImage Captioning	CodeCode Available	1
Graphhopper: Multi-Hop Scene Graph Reasoning for Visual Question Answering	Jul 13, 2021	NavigateQuestion Answering	CodeCode Available	1
Greedy Gradient Ensemble for Robust Visual Question Answering	Jul 27, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
Improving Selective Visual Question Answering by Learning from Your Peers	Jun 14, 2023	Question AnsweringVisual Question Answering	CodeCode Available	1
Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization	Oct 7, 2016	General ClassificationImage Attribution	CodeCode Available	1

Show:10 25 50

← PrevPage 11 of 44Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified