Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–700 of 2177 papers

Title	Date	Tasks	Status
Improved Alignment of Modalities in Large Vision Language Models	Mar 25, 2025	GPUImage Captioning	—Unverified
Domain Adaptation of VLM for Soccer Video Understanding	May 20, 2025	Action ClassificationDomain Adaptation	—Unverified
Do Explanations make VQA Models more Predictable to a Human?	Oct 29, 2018	Question AnsweringVisual Question Answering	—Unverified
Adversarial Regularization for Visual Question Answering: Strengths, Shortcomings, and Side Effects	Jun 20, 2019	Question AnsweringVisual Question Answering	—Unverified
Improved Baselines for Data-efficient Perceptual Augmentation of LLMs	Mar 20, 2024	Audio captioningImage Captioning	—Unverified
Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models?	Jun 20, 2024	Caption GenerationHallucination	—Unverified
Does my multimodal model learn cross-modal interactions? It's harder to tell than you might think!	Oct 13, 2020	DiagnosticImage-text Classification	—Unverified
Boosting Cross-task Transferability of Adversarial Patches with Visual Relations	Apr 11, 2023	Image CaptioningObject Recognition	—Unverified
Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering	May 2, 2022	DecoderImage Captioning	—Unverified
BOK-VQA: Bilingual outside Knowledge-Based Visual Question Answering via Graph Representation Pretraining	Jan 12, 2024	Question AnsweringVisual Question Answering	—Unverified
Document Visual Question Answering Challenge 2020	Aug 20, 2020	Question AnsweringRetrieval	—Unverified
Document Collection Visual Question Answering	Apr 27, 2021	document understandingQuestion Answering	—Unverified
Blocks as Probes: Dissecting Categorization Ability of Large Multimodal Models	Sep 3, 2024	Question AnsweringVisual Question Answering	—Unverified
Improved Bilinear Pooling with CNNs	Jul 21, 2017	GPUQuestion Answering	—Unverified
Improving Users' Mental Model with Attention-directed Counterfactual Edits	Oct 13, 2021	counterfactualQuestion Answering	—Unverified
Document AI: Benchmarks, Models and Applications	Nov 16, 2021	Deep LearningDocument AI	—Unverified
A Cognitive Evaluation Benchmark of Image Reasoning and Description for Large Vision-Language Models	Feb 28, 2024	Image DescriptionQuestion Answering	—Unverified
Image Semantic Relation Generation	Oct 19, 2022	Image RetrievalImage Segmentation	—Unverified
DLIP: Distilling Language-Image Pre-training	Aug 24, 2023	Image CaptioningImage-text Retrieval	—Unverified
Generating Question Relevant Captions to Aid Visual Question Answering	Jun 3, 2019	General KnowledgeImage Captioning	—Unverified
ImageTTR: Grounding Type Theory with Records in Image Classification for Visual Question Answering	Jun 1, 2019	General Classificationimage-classification	—Unverified
Diversity and Consistency: Exploring Visual Question-Answer Pair Generation	Nov 1, 2021	DiversityQuestion Answering	—Unverified
Diversifying Joint Vision-Language Tokenization Learning	Jun 6, 2023	Question AnsweringRepresentation Learning	—Unverified
DistilDoc: Knowledge Distillation for Visually-Rich Document Applications	Jun 12, 2024	document-image-classificationDocument Image Classification	—Unverified
Adversarial Attacks Beyond the Image Space	Nov 20, 2017	Question AnsweringVisual Question Answering	—Unverified
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models	Aug 8, 2024	Contrastive LearningFine-Grained Image Recognition	—Unverified
Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA	Jun 27, 2024	General KnowledgeQuestion Answering	—Unverified
Adventurer's Treasure Hunt: A Transparent System for Visually Grounded Compositional Visual Question Answering based on Scene Graphs	Jun 28, 2021	Question AnsweringTask 2	—Unverified
Image Captioning with Compositional Neural Module Networks	Jul 10, 2020	Image CaptioningQuestion Answering	—Unverified
Answer-checking in Context: A Multi-modal FullyAttention Network for Visual Question Answering	Oct 17, 2020	Question AnsweringVisual Question Answering	—Unverified
Image Manipulation via Multi-Hop Instructions -- A New Dataset and Weakly-Supervised Neuro-Symbolic Approach	May 23, 2023	Image ManipulationQuestion Answering	—Unverified
Image-of-Thought Prompting for Visual Reasoning Refinement in Multimodal Large Language Models	May 22, 2024	Multimodal ReasoningVisual Question Answering	—Unverified
Discovering Pathology Rationale and Token Allocation for Efficient Multimodal Pathology Reasoning	May 21, 2025	Computational EfficiencyDiagnostic	—Unverified
Directional Gradient Projection for Robust Fine-Tuning of Foundation Models	Feb 21, 2025	image-classificationImage Classification	—Unverified
DiN: Diffusion Model for Robust Medical VQA with Semantic Noisy Labels	Mar 24, 2025	Medical Visual Question AnsweringQuestion Answering	—Unverified
A Novel Framework for Robustness Analysis of Visual QA Models	Nov 16, 2017	Question AnsweringVisual Question Answering	—Unverified
Image Captioning and Visual Question Answering Based on Attributes and External Knowledge	Mar 9, 2016	General KnowledgeImage Captioning	—Unverified
Image Position Prediction in Multimodal Documents	May 1, 2020	ArticlesCaption Generation	—Unverified
ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance	Dec 9, 2024	Image GenerationLanguage Modeling	—Unverified
Beyond VQA: Generating Multi-word Answer and Rationale to Visual Questions	Oct 24, 2020	General ClassificationMultiple-choice	—Unverified
Differentiable End-to-End Program Executor for Sample and Computationally Efficient VQA	Jan 1, 2021	Question AnsweringVisual Question Answering	—Unverified
A Novel Attention-based Aggregation Function to Combine Vision and Language	Apr 27, 2020	General ClassificationImage Captioning	—Unverified
Beyond the Hype: A dispassionate look at vision-language models in medical scenario	Aug 16, 2024	Question AnsweringSpatial Reasoning	—Unverified
Advancing Surgical VQA with Scene Graph Knowledge	Dec 15, 2023	Question AnsweringVisual Question Answering	—Unverified
Detection-based Intermediate Supervision for Visual Question Answering	Dec 26, 2023	cross-modal alignmentLogical Reasoning	—Unverified
Beyond the Frame: Generating 360° Panoramic Videos from Perspective Videos	Apr 10, 2025	Question AnsweringVideo Generation	—Unverified
An Open-Source Software Toolkit & Benchmark Suite for the Evaluation and Adaptation of Multimodal Action Models	Jun 10, 2025	Action GenerationImage Captioning	—Unverified
CLIPPO: Image-and-Language Understanding from Pixels Only	Dec 15, 2022	Contrastive Learningimage-classification	—Unverified
Detecting and Evaluating Medical Hallucinations in Large Vision Language Models	Jun 14, 2024	HallucinationMedical Visual Question Answering	—Unverified
Detect, Describe, Discriminate: Moving Beyond VQA for MLLM Evaluation	Sep 23, 2024	Multiple-choiceQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 14 of 44Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified