Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1101–1125 of 2177 papers

Title	Date	Tasks	Status
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites	Apr 25, 2024	4kLanguage Modeling	—Unverified
How good are deep models in understanding the generated images?	Aug 23, 2022	ObjectObject Recognition	—Unverified
How Much Can CLIP Benefit Vision-and-Language Tasks?	Sep 29, 2021	Question AnsweringVisual Entailment	—Unverified
How to Design Sample and Computationally Efficient VQA Models	Mar 22, 2021	Question AnsweringVisual Question Answering	—Unverified
How to find a good image-text embedding for remote sensing visual question answering?	Sep 24, 2021	Question AnsweringVisual Question Answering	—Unverified
How Transferable are Reasoning Patterns in VQA?	Apr 8, 2021	Question AnsweringVisual Question Answering	—Unverified
How Vision-Language Tasks Benefit from Large Pre-trained Models: A Survey	Dec 11, 2024	Image CaptioningQuestion Answering	—Unverified
How Well Can Vison-Language Models Understand Humans' Intention? An Open-ended Theory of Mind Question Evaluation Benchmark	Mar 28, 2025	Question AnsweringVisual Question Answering	—Unverified
HRVQA: A Visual Question Answering Benchmark for High-Resolution Aerial Images	Jan 23, 2023	AttributeQuestion Answering	—Unverified
Human-Adversarial Visual Question Answering	Jun 4, 2021	Question AnsweringVisual Question Answering	—Unverified
Human Attention in Visual Question Answering: Do Humans and Deep Networks Look at the Same Regions?	Jun 17, 2016	Question AnsweringVisual Question Answering	—Unverified
Human Attention in Visual Question Answering: Do Humans and Deep Networks Look at the Same Regions?	Jun 11, 2016	Question AnsweringVisual Question Answering	—Unverified
Human-centered Interactive Learning via MLLMs for Text-to-Image Person Re-identification	May 21, 2025	Data AugmentationLarge Language Model	—Unverified
Human Mobility Question Answering (Vision Paper)	Oct 2, 2023	ManagementQuestion Answering	—Unverified
Hummingbird: High Fidelity Image Generation via Multimodal Context Alignment	Feb 7, 2025	DiversityHuman-Object Interaction Detection	—Unverified
Hyperbolic Attention Networks	May 24, 2018	Machine TranslationQuestion Answering	—Unverified
Hyper-dimensional computing for a visual question-answering system that is trainable end-to-end	Nov 28, 2017	Question AnsweringVisual Question Answering	—Unverified
Hypo3D: Exploring Hypothetical Reasoning in 3D	Feb 2, 2025	Question AnsweringVisual Question Answering	—Unverified
ICDAR 2019 Competition on Scene Text Visual Question Answering	Jun 30, 2019	Question AnsweringVisual Question Answering	—Unverified
i-Code Studio: A Configurable and Composable Framework for Integrative AI	May 23, 2023	Question AnsweringRetrieval	—Unverified
ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance	Dec 9, 2024	Image GenerationLanguage Modeling	—Unverified
CLIPPO: Image-and-Language Understanding from Pixels Only	Dec 15, 2022	Contrastive Learningimage-classification	—Unverified
Image as a Foreign Language: BEiT Pretraining for Vision and Vision-Language Tasks	Jan 1, 2023	Cross-Modal RetrievalImage Captioning	—Unverified
Image Captioning and Visual Question Answering Based on Attributes and External Knowledge	Mar 9, 2016	General KnowledgeImage Captioning	—Unverified
Image Captioning with Compositional Neural Module Networks	Jul 10, 2020	Image CaptioningQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 45 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified