Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1051–1075 of 2177 papers

Title	Date	Tasks	Status
AntiGrounding: Lifting Robotic Actions into VLM Representation Space for Decision Making	Jun 14, 2025	Decision MakingQuestion Answering	—Unverified
Learning Sparsity for Effective and Efficient Music Performance Question Answering	Jun 2, 2025	Audio-visual Question AnsweringQuestion Answering	—Unverified
Dual Capsule Attention Mask Network with Mutual Learning for Visual Question Answering	Oct 1, 2022	Question AnsweringVisual Question Answering	—Unverified
Learning Sparse Mixture of Experts for Visual Question Answering	Sep 19, 2019	Mixture-of-ExpertsQuestion Answering	—Unverified
Learning Rich Image Region Representation for Visual Question Answering	Oct 29, 2019	Language ModelingLanguage Modelling	—Unverified
Bridge Damage Cause Estimation Using Multiple Images Based on Visual Question Answering	Feb 18, 2023	Question AnsweringVisual Question Answering	—Unverified
Learning Reasoning Paths over Semantic Graphs for Video-grounded Dialogues	Mar 1, 2021	Question AnsweringVisual Question Answering	—Unverified
Learning Models for Actions and Person-Object Interactions with Transfer to Question Answering	Apr 16, 2016	General ClassificationHuman-Object Interaction Detection	—Unverified
Learning How To Ask: Cycle-Consistency Refines Prompts in Multimodal Foundation Models	Feb 13, 2024	Code GenerationHumanEval	—Unverified
Breaking Neural Network Scaling Laws with Modularity	Sep 9, 2024	Question AnsweringVisual Question Answering	—Unverified
DreamSync: Aligning Text-to-Image Generation with Image Understanding Feedback	Nov 29, 2023	Image GenerationQuestion Answering	—Unverified
Breaking Down Questions for Outside-Knowledge Visual Question Answering	Nov 16, 2021	Graph Neural NetworkQuestion Answering	—Unverified
Answer-Type Prediction for Visual Question Answering	Jun 1, 2016	Object RecognitionPrediction	—Unverified
Adversarial Representation Learning for Text-to-Image Matching	Aug 28, 2019	Image CaptioningLanguage Modeling	—Unverified
Learning Compositional Representation for Few-shot Visual Question Answering	Feb 21, 2021	AttributeQuestion Answering	—Unverified
Learning by Hallucinating: Vision-Language Pre-training with Weak Supervision	Oct 24, 2022	cross-modal alignmentCross-Modal Retrieval	—Unverified
Learning by Asking Questions	Dec 4, 2017	Question AnsweringVisual Question Answering	—Unverified
Learning Answer Embeddings for Visual Question Answering	Jun 10, 2018	Question AnsweringTransfer Learning	—Unverified
LCV2: An Efficient Pretraining-Free Framework for Grounded Visual Question Answering	Jan 29, 2024	Language ModelingLanguage Modelling	—Unverified
Double Visual Defense: Adversarial Pre-training and Instruction Tuning for Improving Vision-Language Model Robustness	Jan 16, 2025	Adversarial DefenseAdversarial Robustness	—Unverified
Breaking Down Questions for Outside-Knowledge VQA	Sep 29, 2021	Graph Neural NetworkQuestion Answering	—Unverified
LAVIS: A Library for Language-Vision Intelligence	Sep 15, 2022	BenchmarkingImage Captioning	—Unverified
LaVida Drive: Vision-Text Interaction VLM for Autonomous Driving with Token Selection, Recovery and Enhancement	Nov 20, 2024	Autonomous DrivingComputational Efficiency	—Unverified
Domain-robust VQA with diverse datasets and methods but no target labels	Mar 29, 2021	Domain AdaptationObject Recognition	—Unverified
Latent Variable Models for Visual Question Answering	Jan 16, 2021	BenchmarkingQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 43 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified