Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2151–2177 of 2177 papers

Title	Date	Tasks	Status
SNAP: A Benchmark for Testing the Effects of Capture Conditions on Fundamental Vision Tasks	May 21, 2025	image-classificationImage Classification	CodeCode Available
A Dual-Attention Learning Network with Word and Sentence Embedding for Medical Visual Question Answering	Oct 1, 2022	Medical Visual Question AnsweringQuestion Answering	CodeCode Available
Visual Question Answering using Deep Learning: A Survey and Performance Analysis	Aug 27, 2019	Common Sense ReasoningQuestion Answering	CodeCode Available
General Greedy De-bias Learning	Dec 20, 2021	image-classificationImage Classification	CodeCode Available
Soft-Prompting with Graph-of-Thought for Multi-modal Representation Learning	Apr 6, 2024	Domain GeneralizationImage Retrieval	CodeCode Available
Watch Out Your Album! On the Inadvertent Privacy Memorization in Multi-Modal Large Language Models	Mar 3, 2025	MemorizationQuestion Answering	CodeCode Available
Answer Them All! Toward Universal Visual Question Answering Models	Mar 1, 2019	AllQuestion Answering	CodeCode Available
Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering	May 21, 2024	DiversityInformation Retrieval	CodeCode Available
SOrT-ing VQA Models : Contrastive Gradient Learning for Improved Consistency	Oct 20, 2020	Question AnsweringVisual Grounding	CodeCode Available
OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework	Feb 7, 2022	Image Captioningimage-classification	CodeCode Available
SparrowVQE: Visual Question Explanation for Course Content Understanding	Nov 12, 2024	Question AnsweringVisual Question Answering	CodeCode Available
Game of Sketches: Deep Recurrent Models of Pictionary-style Word Guessing	Jan 29, 2018	Question AnsweringVisual Question Answering	CodeCode Available
Sparse and Structured Visual Attention	Feb 13, 2020	Image CaptioningQuestion Answering	CodeCode Available
Robustness through Data Augmentation Loss Consistency	Oct 21, 2021	Multi-domain Dialogue State TrackingVisual Question Answering	CodeCode Available
Fully Authentic Visual Question Answering Dataset from Online Communities	Nov 27, 2023	Question AnsweringVisual Question Answering	CodeCode Available
D3: Data Diversity Design for Systematic Generalization in Visual Question Answering	Sep 15, 2023	DiversityQuestion Answering	CodeCode Available
Visual Question Answering: which investigated applications?	Mar 4, 2021	Image CaptioningQuestion Answering	CodeCode Available
CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays	May 23, 2025	DiagnosticQuestion Answering	CodeCode Available
cViL: Cross-Lingual Training of Vision-Language Models using Knowledge Distillation	Jun 7, 2022	Knowledge DistillationQuestion Answering	CodeCode Available
Speech-Based Visual Question Answering	May 1, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Adapting Visual Question Answering Models for Enhancing Multimodal Community Q&A Platforms	Aug 29, 2018	Community Question AnsweringGeneral Classification	CodeCode Available
From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models	Dec 21, 2022	Question AnsweringVisual Question Answering	CodeCode Available
Cross-Modal Contrastive Learning for Robust Reasoning in VQA	Nov 21, 2022	Contrastive LearningQuestion Answering	CodeCode Available
FRAMES-VQA: Benchmarking Fine-Tuning Robustness across Multi-Modal Shifts in Visual Question Answering	May 27, 2025	BenchmarkingQuestion Answering	CodeCode Available
Focal Visual-Text Attention for Visual Question Answering	Jun 5, 2018	Memex Question AnsweringQuestion Answering	CodeCode Available
Cross-Lingual Text-Rich Visual Comprehension: An Information Theory Perspective	Dec 23, 2024	Question AnsweringVisual Question Answering	CodeCode Available
UniRS: Unifying Multi-temporal Remote Sensing Tasks through Vision Language Models	Dec 30, 2024	Question AnsweringScene Classification	CodeCode Available

Show:10 25 50

← PrevPage 44 of 44Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified