Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 726–750 of 2177 papers

Title	Date	Tasks	Status
Instance-Level Trojan Attacks on Visual Question Answering via Adversarial Learning in Neuron Activation Space	Apr 2, 2023	Question AnsweringVisual Question Answering	—Unverified
Deep Attention Neural Tensor Network for Visual Question Answering	Sep 1, 2018	Deep AttentionQuestion Answering	—Unverified
Decoupled Box Proposal and Featurization with Ultrafine-Grained Semantic Labels Improve Image Captioning and Visual Question Answering	Sep 4, 2019	Image CaptioningObject	—Unverified
Benchmarking Vision Language Models for Cultural Understanding	Jul 15, 2024	BenchmarkingQuestion Answering	—Unverified
Decouple Before Interact: Multi-Modal Prompt Learning for Continual Visual Question Answering	Jan 1, 2023	Continual LearningLanguage Modelling	—Unverified
Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models	Jan 20, 2020	Question AnsweringVisual Question Answering	—Unverified
InfographicVQA	Apr 26, 2021	Question AnsweringVisual Question Answering	—Unverified
An Empirical Study on the Language Modal in Visual Question Answering	May 17, 2023	Question AnsweringVisual Question Answering	—Unverified
Debating for Better Reasoning: An Unsupervised Multimodal Approach	May 20, 2025	Question AnsweringVisual Question Answering	—Unverified
An Empirical Study on the Generalization Power of Neural Representations Learned via Visual Guessing Games	Jan 31, 2021	Question AnsweringVisual Question Answering	—Unverified
DDRprog: A CLEVR Differentiable Dynamic Reasoning Programmer	Mar 30, 2018	Question AnsweringVisual Question Answering	—Unverified
Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-to-Image Generation	Oct 27, 2023	Image GenerationQuestion Answering	—Unverified
Dataset Bias Mitigation in Multiple-Choice Visual Question Answering and Beyond	Oct 23, 2023	counterfactualMultiple-choice	—Unverified
Benchmarking Large Multimodal Models for Ophthalmic Visual Question Answering with OphthalWeChat	May 26, 2025	BenchmarkingQuestion Answering	—Unverified
Accounting for Focus Ambiguity in Visual Questions	Jan 4, 2025	Question AnsweringVisual Question Answering	—Unverified
Data Metabolism: An Efficient Data Design Schema For Vision Language Model	Apr 10, 2025	Language ModelingLanguage Modelling	—Unverified
Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction	Apr 24, 2025	Conformal PredictionHallucination	—Unverified
Data Augmentation for Visual Question Answering	Sep 1, 2017	Data AugmentationGeneral Classification	—Unverified
DARE: Diverse Visual Question Answering with Robustness Evaluation	Sep 26, 2024	image-classificationImage Classification	—Unverified
@Bench: Benchmarking Vision-Language Models for Human-centered Assistive Technology	Sep 21, 2024	BenchmarkingDepth Estimation	—Unverified
Damage Assessment after Natural Disasters with UAVs: Semantic Feature Extraction using Deep Learning	Dec 14, 2024	Decision MakingQuestion Answering	—Unverified
An Empirical Study on Leveraging Scene Graphs for Visual Question Answering	Jul 28, 2019	Knowledge GraphsQuestion Answering	—Unverified
Cycle-Consistency for Robust Visual Question Answering	Feb 15, 2019	Question AnsweringQuestion Generation	—Unverified
Being Negative but Constructively: Lessons Learnt from Creating Better Visual Question Answering Datasets	Apr 24, 2017	Multiple-choiceQuestion Answering	—Unverified
InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding	Mar 3, 2024	Visual Question Answering	—Unverified

Show:10 25 50

← PrevPage 30 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified