Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 701–750 of 2177 papers

Title	Date	Tasks	Status
An Open-Source Software Toolkit & Benchmark Suite for the Evaluation and Adaptation of Multimodal Action Models	Jun 10, 2025	Action GenerationImage Captioning	—Unverified
Integrating Object Detection Modality into Visual Language Model for Enhanced Autonomous Driving Agent	Nov 8, 2024	Autonomous DrivingLanguage Modeling	—Unverified
InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model	Jan 29, 2024	FormLanguage Modeling	—Unverified
Detecting and Evaluating Medical Hallucinations in Large Vision Language Models	Jun 14, 2024	HallucinationMedical Visual Question Answering	—Unverified
Detect, Describe, Discriminate: Moving Beyond VQA for MLLM Evaluation	Sep 23, 2024	Multiple-choiceQuestion Answering	—Unverified
Annotation Methodologies for Vision and Language Dataset Creation	Jul 10, 2016	Action RecognitionImage Description	—Unverified
Advancing Multimodal Medical Capabilities of Gemini	May 6, 2024	Computed Tomography (CT)image-classification	—Unverified
Detect2Interact: Localizing Object Key Field in Visual Question Answering (VQA) with LLMs	Apr 1, 2024	Common Sense ReasoningObject	—Unverified
Designing a Robust Radiology Report Generation System	Nov 2, 2024	Decision MakingDiagnostic	—Unverified
Beyond Logit Lens: Contextual Embeddings for Robust Hallucination Detection & Grounding in VLMs	Nov 28, 2024	AttributeHallucination	—Unverified
Achieving Human Parity on Visual Question Answering	Nov 17, 2021	Question AnsweringVisual Question Answering	—Unverified
Integrating Knowledge and Reasoning in Image Understanding	Jun 24, 2019	Object RecognitionQuestion Answering	—Unverified
Interpretable Visual Question Answering via Reasoning Supervision	Sep 7, 2023	Common Sense ReasoningQuestion Answering	—Unverified
Beyond Human Vision: The Role of Large Vision Language Models in Microscope Image Analysis	May 1, 2024	Image CaptioningQuestion Answering	—Unverified
Advancing Medical Imaging with Language Models: A Journey from N-grams to ChatGPT	Apr 11, 2023	DiagnosticImage Captioning	—Unverified
Instruction-augmented Multimodal Alignment for Image-Text and Element Matching	Apr 16, 2025	Image AugmentationImage Generation	—Unverified
DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs	Jun 6, 2024	Language ModellingLarge Language Model	—Unverified
Beyond Captioning: Task-Specific Prompting for Improved VLM Performance in Mathematical Reasoning	Oct 8, 2024	Image RetrievalMath	—Unverified
An experimental study of the vision-bottleneck in VQA	Feb 14, 2022	ObjectQuestion Answering	—Unverified
An Evaluation of GPT-4V and Gemini in Online VQA	Dec 17, 2023	Question AnsweringVisual Question Answering	—Unverified
Deep learning evaluation using deep linguistic processing	Jun 5, 2017	Deep LearningMultimodal Deep Learning	—Unverified
Inquire, Interact, and Integrate: A Proactive Agent Collaborative Framework for Zero-Shot Multimodal Medical Reasoning	May 19, 2024	Multimodal ReasoningQuestion Answering	—Unverified
Deep Exemplar Networks for VQA and VQG	Dec 19, 2019	DecoderQuestion Answering	—Unverified
Deep Bayesian Active Learning for Multiple Correct Outputs	Dec 2, 2019	Active LearningAnswer Generation	—Unverified
BESTMVQA: A Benchmark Evaluation System for Medical Visual Question Answering	Dec 13, 2023	Medical Visual Question AnsweringQuestion Answering	—Unverified
Instance-Level Trojan Attacks on Visual Question Answering via Adversarial Learning in Neuron Activation Space	Apr 2, 2023	Question AnsweringVisual Question Answering	—Unverified
Deep Attention Neural Tensor Network for Visual Question Answering	Sep 1, 2018	Deep AttentionQuestion Answering	—Unverified
Decoupled Box Proposal and Featurization with Ultrafine-Grained Semantic Labels Improve Image Captioning and Visual Question Answering	Sep 4, 2019	Image CaptioningObject	—Unverified
Benchmarking Vision Language Models for Cultural Understanding	Jul 15, 2024	BenchmarkingQuestion Answering	—Unverified
Decouple Before Interact: Multi-Modal Prompt Learning for Continual Visual Question Answering	Jan 1, 2023	Continual LearningLanguage Modelling	—Unverified
Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models	Jan 20, 2020	Question AnsweringVisual Question Answering	—Unverified
InfographicVQA	Apr 26, 2021	Question AnsweringVisual Question Answering	—Unverified
An Empirical Study on the Language Modal in Visual Question Answering	May 17, 2023	Question AnsweringVisual Question Answering	—Unverified
Debating for Better Reasoning: An Unsupervised Multimodal Approach	May 20, 2025	Question AnsweringVisual Question Answering	—Unverified
An Empirical Study on the Generalization Power of Neural Representations Learned via Visual Guessing Games	Jan 31, 2021	Question AnsweringVisual Question Answering	—Unverified
DDRprog: A CLEVR Differentiable Dynamic Reasoning Programmer	Mar 30, 2018	Question AnsweringVisual Question Answering	—Unverified
Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-to-Image Generation	Oct 27, 2023	Image GenerationQuestion Answering	—Unverified
Dataset Bias Mitigation in Multiple-Choice Visual Question Answering and Beyond	Oct 23, 2023	counterfactualMultiple-choice	—Unverified
Benchmarking Large Multimodal Models for Ophthalmic Visual Question Answering with OphthalWeChat	May 26, 2025	BenchmarkingQuestion Answering	—Unverified
Accounting for Focus Ambiguity in Visual Questions	Jan 4, 2025	Question AnsweringVisual Question Answering	—Unverified
Data Metabolism: An Efficient Data Design Schema For Vision Language Model	Apr 10, 2025	Language ModelingLanguage Modelling	—Unverified
Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction	Apr 24, 2025	Conformal PredictionHallucination	—Unverified
Data Augmentation for Visual Question Answering	Sep 1, 2017	Data AugmentationGeneral Classification	—Unverified
DARE: Diverse Visual Question Answering with Robustness Evaluation	Sep 26, 2024	image-classificationImage Classification	—Unverified
@Bench: Benchmarking Vision-Language Models for Human-centered Assistive Technology	Sep 21, 2024	BenchmarkingDepth Estimation	—Unverified
Damage Assessment after Natural Disasters with UAVs: Semantic Feature Extraction using Deep Learning	Dec 14, 2024	Decision MakingQuestion Answering	—Unverified
An Empirical Study on Leveraging Scene Graphs for Visual Question Answering	Jul 28, 2019	Knowledge GraphsQuestion Answering	—Unverified
Cycle-Consistency for Robust Visual Question Answering	Feb 15, 2019	Question AnsweringQuestion Generation	—Unverified
Being Negative but Constructively: Lessons Learnt from Creating Better Visual Question Answering Datasets	Apr 24, 2017	Multiple-choiceQuestion Answering	—Unverified
InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding	Mar 3, 2024	Visual Question Answering	—Unverified

Show:10 25 50

← PrevPage 15 of 44Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified