Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1801–1825 of 2177 papers

Title	Date	Tasks	Status
The curse of language biases in remote sensing VQA: the role of spatial attributes, language diversity, and the need for clear evaluation	Nov 28, 2023	DiversityQuestion Answering	—Unverified
The Forgettable-Watcher Model for Video Question Answering	May 3, 2017	modelQuestion Answering	—Unverified
AdaCoder: Adaptive Prompt Compression for Programmatic Visual Question Answering	Jul 28, 2024	Question AnsweringVisual Question Answering	—Unverified
The Impact of Explanations on AI Competency Prediction in VQA	Jul 2, 2020	AI AgentLanguage Modeling	—Unverified
The meaning of "most" for visual question answering models	Dec 31, 2018	Question AnsweringVisual Question Answering	—Unverified
The Meaning of ``Most'' for Visual Question Answering Models	Aug 1, 2019	Question AnsweringVisual Question Answering	—Unverified
VQA-Diff: Exploiting VQA and Diffusion for Zero-Shot Image-to-3D Vehicle Asset Generation in Autonomous Driving	Jul 9, 2024	Autonomous DrivingImage to 3D	—Unverified
VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions	Mar 20, 2018	Explanatory Visual Question AnsweringMulti-Task Learning	—Unverified
The Quest for Visual Understanding: A Journey Through the Evolution of Visual Question Answering	Jan 13, 2025	Common Sense ReasoningQuestion Answering	—Unverified
A Vision Centric Remote Sensing Benchmark	Mar 20, 2025	Question AnsweringRepresentation Learning	—Unverified
The VQA-Machine: Learning How to Use Existing Vision Algorithms to Answer New Questions	Dec 16, 2016	BIG-bench Machine LearningQuestion Answering	—Unverified
The Wisdom of MaSSeS: Majority, Subjectivity, and Semantic Similarity in the Evaluation of VQA	Sep 12, 2018	Question AnsweringSemantic Similarity	—Unverified
AVIS: Autonomous Visual Information Seeking with Large Language Model Agent	Jun 13, 2023	Decision MakingLanguage Modeling	—Unverified
TI-JEPA: An Innovative Energy-based Joint Embedding Strategy for Text-Image Multimodal Systems	Mar 9, 2025	Multimodal Sentiment AnalysisQuestion Answering	—Unverified
VQA-GEN: A Visual Question Answering Benchmark for Domain Generalization	Nov 1, 2023	Domain GeneralizationQuestion Answering	—Unverified
VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks for Visual Question Answering	May 23, 2022	Knowledge GraphsQuestion Answering	—Unverified
TinyDrive: Multiscale Visual Question Answering with Selective Token Routing for Autonomous Driving	May 21, 2025	Autonomous DrivingQuestion Answering	—Unverified
Auto-Parsing Network for Image Captioning and Visual Question Answering	Aug 24, 2021	Image CaptioningQuestion Answering	—Unverified
A Unified Framework for Multilingual and Code-Mixed Visual Question Answering	Dec 1, 2020	Question AnsweringVisual Question Answering	—Unverified
TinyVQA: Compact Multimodal Deep Neural Network for Visual Question Answering on Resource-Constrained Devices	Apr 4, 2024	QuantizationQuestion Answering	—Unverified
VQA-LOL: Visual Question Answering under the Lens of Logic	Feb 19, 2020	NegationQuestion Answering	—Unverified
TM-PATHVQA:90000+ Textless Multilingual Questions for Medical Visual Question Answering	Jul 16, 2024	Medical Visual Question AnsweringQuestion Answering	—Unverified
TokenFocus-VQA: Enhancing Text-to-Image Alignment with Position-Aware Focus and Multi-Perspective Aggregations on LVLMs	Apr 10, 2025	Ensemble LearningPosition	—Unverified
Attentive Explanations: Justifying Decisions and Pointing to the Evidence	Dec 14, 2016	Decision MakingQuestion Answering	—Unverified
Attention Overlap Is Responsible for The Entity Missing Problem in Text-to-image Diffusion Models!	Oct 28, 2024	DenoisingQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 73 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified