Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1501–1525 of 2177 papers

Title	Date	Tasks	Status
Take A Step Back: Rethinking the Two Stages in Visual Reasoning	Jul 29, 2024	Logical ReasoningQuestion Answering	—Unverified
Taking a HINT: Leveraging Explanations to Make Vision and Language Models More Grounded	Feb 11, 2019	Image CaptioningQuestion Answering	—Unverified
Talking to the brain: Using Large Language Models as Proxies to Model Brain Semantic Representation	Feb 26, 2025	Question Answeringvalid	—Unverified
Task-driven Visual Saliency and Attention-based Visual Question Answering	Feb 22, 2017	Question AnsweringVisual Question Answering	—Unverified
Task Formulation Matters When Learning Continuously: A Case Study in Visual Question Answering	Jan 16, 2022	Continual LearningIncremental Learning	—Unverified
Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference	Mar 17, 2025	Feature CompressionImage Compression	—Unverified
Task-Oriented Multi-User Semantic Communications	Dec 19, 2021	Image RetrievalMachine Translation	—Unverified
Task-Oriented Semantic Communication in Large Multimodal Models-based Vehicle Networks	May 5, 2025	Question AnsweringSemantic Communication	—Unverified
Task Progressive Curriculum Learning for Robust Visual Question Answering	Nov 26, 2024	Data AugmentationEnsemble Learning	—Unverified
TA-Student VQA: Multi-Agents Training by Self-Questioning	Jun 1, 2020	DiversityQuestion Answering	—Unverified
Tell-and-Answer: Towards Explainable Visual Question Answering using Attributes and Captions	Jan 27, 2018	AttributeImage Captioning	—Unverified
Tell Me the Evidence? Dual Visual-Linguistic Interaction for Answer Grounding	Jun 21, 2022	DecoderQuestion Answering	—Unverified
Test-Time Adaptation for Visual Document Understanding	Jun 15, 2022	document understandingDomain Adaptation	—Unverified
Text-Aware Dual Routing Network for Visual Question Answering	Nov 17, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Text-Conditioned Generative Model of 3D Strand-based Human Hairstyles	Jan 1, 2024	Question AnsweringVisual Question Answering	—Unverified
Text-Guided Coarse-to-Fine Fusion Network for Robust Remote Sensing Visual Question Answering	Nov 24, 2024	Question AnsweringRelational Reasoning	—Unverified
TextMatch: Enhancing Image-Text Consistency Through Multimodal Optimization	Dec 24, 2024	In-Context LearningQuestion Answering	—Unverified
DuReader_vis: A Chinese Dataset for Open-domain Document Visual Question Answering	May 1, 2022	document understandingOpen-Domain Question Answering	—Unverified
TextSquare: Scaling up Text-Centric Visual Instruction Tuning	Apr 19, 2024	HallucinationHallucination Evaluation	—Unverified
Textually Enriched Neural Module Networks for Visual Question Answering	Sep 23, 2018	Image CaptioningQuestion Answering	—Unverified
TextVidBench: A Benchmark for Long Video Scene Text Understanding	Jun 5, 2025	Prompt EngineeringQuestion Answering	—Unverified
The Color of the Cat is Gray: 1 Million Full-Sentences Visual Question Answering (FSVQA)	Sep 21, 2016	Question AnsweringSentence	—Unverified
The curse of language biases in remote sensing VQA: the role of spatial attributes, language diversity, and the need for clear evaluation	Nov 28, 2023	DiversityQuestion Answering	—Unverified
The Forgettable-Watcher Model for Video Question Answering	May 3, 2017	modelQuestion Answering	—Unverified
The Impact of Explanations on AI Competency Prediction in VQA	Jul 2, 2020	AI AgentLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 61 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified