Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1126–1150 of 2177 papers

Title	Date	Tasks	Status
Estimating semantic structure for the VQA answer space	Jun 10, 2020	General ClassificationQuestion Answering	—Unverified
ERNIE-UniX2: A Unified Cross-lingual Cross-modal Framework for Understanding and Generation	Nov 9, 2022	Contrastive LearningDecoder	—Unverified
An Analysis of Visual Question Answering Algorithms	Mar 28, 2017	Question AnsweringVisual Question Answering	—Unverified
Medical Visual Question Answering: A Survey	Nov 19, 2021	Medical Visual Question AnsweringQuestion Answering	—Unverified
Medical visual question answering using joint self-supervised learning	Feb 25, 2023	DecoderDiversity	—Unverified
ErgoChat: a Visual Query System for the Ergonomic Risk Assessment of Construction Workers	Dec 27, 2024	Image CaptioningQuestion Answering	—Unverified
Entity-Focused Dense Passage Retrieval for Outside-Knowledge Visual Question Answering	Oct 18, 2022	Passage RetrievalQuestion Answering	—Unverified
Enhancing Visual Question Answering through Ranking-Based Hybrid Training and Multimodal Fusion	Aug 14, 2024	Question AnsweringVisual Question Answering	—Unverified
MedOrch: Medical Diagnosis with Tool-Augmented Reasoning Agents for Flexible Extensibility	May 30, 2025	Decision MakingMedical Diagnosis	—Unverified
Analysis on Image Set Visual Question Answering	Mar 31, 2021	Question AnsweringVisual Question Answering	—Unverified
Enhancing Scientific Visual Question Answering through Multimodal Reasoning and Ensemble Modeling	Jul 8, 2025	ArticlesMultimodal Reasoning	—Unverified
MedThink: Explaining Medical Visual Question Answering via Multimodal Decision-Making Rationale	Apr 18, 2024	Decision MakingMedical Visual Question Answering	—Unverified
MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning	Feb 26, 2025	Domain GeneralizationMedical Image Analysis	—Unverified
MedXChat: A Unified Multimodal Large Language Model Framework towards CXRs Understanding and Generation	Dec 4, 2023	Instruction FollowingLanguage Modeling	—Unverified
MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering	Jun 18, 2025	Multimodal ReasoningQuestion Answering	—Unverified
Enhancing SAM with Efficient Prompting and Preference Optimization for Semi-supervised Medical Image Segmentation	Mar 6, 2025	Active LearningImage Segmentation	—Unverified
Memory-Augmented Multimodal LLMs for Surgical VQA via Self-Contained Inquiry	Nov 17, 2024	Question AnsweringScene Understanding	—Unverified
Memory Augmented Neural Networks for Natural Language Processing	Sep 1, 2017	AI AgentLanguage Modeling	—Unverified
Merlin:Empowering Multimodal LLMs with Foresight Minds	Nov 30, 2023	Visual Question Answering	—Unverified
Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering	Jun 7, 2025	In-Context LearningMeta-Learning	—Unverified
MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification	May 29, 2024	HallucinationImage Captioning	—Unverified
From Training-Free to Adaptive: Empirical Insights into MLLMs' Understanding of Detection Information	Jan 31, 2024	Hallucinationobject-detection	—Unverified
MF2-MVQA: A Multi-stage Feature Fusion method for Medical Visual Question Answering	Nov 11, 2022	Medical Visual Question AnsweringQuestion Answering	—Unverified
Enhancing Human-Computer Interaction in Chest X-ray Analysis using Vision and Language Model with Eye Gaze Patterns	Apr 3, 2024	Language ModelingLanguage Modelling	—Unverified
MGA-VQA: Multi-Granularity Alignment for Visual Question Answering	Jan 25, 2022	Question AnsweringVisual Question Answering	—Unverified

Show:10 25 50

← PrevPage 46 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified