Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1801–1850 of 2177 papers

Title	Date	Tasks	Status
The curse of language biases in remote sensing VQA: the role of spatial attributes, language diversity, and the need for clear evaluation	Nov 28, 2023	DiversityQuestion Answering	—Unverified
The Forgettable-Watcher Model for Video Question Answering	May 3, 2017	modelQuestion Answering	—Unverified
AdaCoder: Adaptive Prompt Compression for Programmatic Visual Question Answering	Jul 28, 2024	Question AnsweringVisual Question Answering	—Unverified
The Impact of Explanations on AI Competency Prediction in VQA	Jul 2, 2020	AI AgentLanguage Modeling	—Unverified
The meaning of "most" for visual question answering models	Dec 31, 2018	Question AnsweringVisual Question Answering	—Unverified
The Meaning of ``Most'' for Visual Question Answering Models	Aug 1, 2019	Question AnsweringVisual Question Answering	—Unverified
VQA-Diff: Exploiting VQA and Diffusion for Zero-Shot Image-to-3D Vehicle Asset Generation in Autonomous Driving	Jul 9, 2024	Autonomous DrivingImage to 3D	—Unverified
VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions	Mar 20, 2018	Explanatory Visual Question AnsweringMulti-Task Learning	—Unverified
The Quest for Visual Understanding: A Journey Through the Evolution of Visual Question Answering	Jan 13, 2025	Common Sense ReasoningQuestion Answering	—Unverified
A Vision Centric Remote Sensing Benchmark	Mar 20, 2025	Question AnsweringRepresentation Learning	—Unverified
The VQA-Machine: Learning How to Use Existing Vision Algorithms to Answer New Questions	Dec 16, 2016	BIG-bench Machine LearningQuestion Answering	—Unverified
The Wisdom of MaSSeS: Majority, Subjectivity, and Semantic Similarity in the Evaluation of VQA	Sep 12, 2018	Question AnsweringSemantic Similarity	—Unverified
AVIS: Autonomous Visual Information Seeking with Large Language Model Agent	Jun 13, 2023	Decision MakingLanguage Modeling	—Unverified
TI-JEPA: An Innovative Energy-based Joint Embedding Strategy for Text-Image Multimodal Systems	Mar 9, 2025	Multimodal Sentiment AnalysisQuestion Answering	—Unverified
VQA-GEN: A Visual Question Answering Benchmark for Domain Generalization	Nov 1, 2023	Domain GeneralizationQuestion Answering	—Unverified
VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks for Visual Question Answering	May 23, 2022	Knowledge GraphsQuestion Answering	—Unverified
TinyDrive: Multiscale Visual Question Answering with Selective Token Routing for Autonomous Driving	May 21, 2025	Autonomous DrivingQuestion Answering	—Unverified
Auto-Parsing Network for Image Captioning and Visual Question Answering	Aug 24, 2021	Image CaptioningQuestion Answering	—Unverified
A Unified Framework for Multilingual and Code-Mixed Visual Question Answering	Dec 1, 2020	Question AnsweringVisual Question Answering	—Unverified
TinyVQA: Compact Multimodal Deep Neural Network for Visual Question Answering on Resource-Constrained Devices	Apr 4, 2024	QuantizationQuestion Answering	—Unverified
VQA-LOL: Visual Question Answering under the Lens of Logic	Feb 19, 2020	NegationQuestion Answering	—Unverified
TM-PATHVQA:90000+ Textless Multilingual Questions for Medical Visual Question Answering	Jul 16, 2024	Medical Visual Question AnsweringQuestion Answering	—Unverified
TokenFocus-VQA: Enhancing Text-to-Image Alignment with Position-Aware Focus and Multi-Perspective Aggregations on LVLMs	Apr 10, 2025	Ensemble LearningPosition	—Unverified
Attentive Explanations: Justifying Decisions and Pointing to the Evidence	Dec 14, 2016	Decision MakingQuestion Answering	—Unverified
Attention Overlap Is Responsible for The Entity Missing Problem in Text-to-image Diffusion Models!	Oct 28, 2024	DenoisingQuestion Answering	—Unverified
Attention Mechanism based Cognition-level Scene Understanding	Apr 17, 2022	Question AnsweringScene Understanding	—Unverified
Toward 3D Spatial Reasoning for Human-like Text-based Visual Question Answering	Sep 21, 2022	Image CaptioningOptical Character Recognition (OCR)	—Unverified
Toward Effective Reinforcement Learning Fine-Tuning for Medical VQA in Vision-Language Models	May 20, 2025	Medical Visual Question AnsweringQuestion Answering	—Unverified
VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering	Sep 27, 2021	Question AnsweringVisual Question Answering	—Unverified
2nd Place Solution to the GQA Challenge 2019	Jul 16, 2019	Question AnsweringVisual Question Answering	—Unverified
Attention Guided Semantic Relationship Parsing for Visual Question Answering	Oct 5, 2020	ObjectQuestion Answering	—Unverified
A Thousand Words Are Worth More Than a Picture: Natural Language-Centric Outside-Knowledge Visual Question Answering	Jan 14, 2022	Generative Question AnsweringImage to text	—Unverified
VQA Training Sets are Self-play Environments for Generating Few-shot Pools	May 30, 2024	Question AnsweringVisual Question Answering	—Unverified
Towards a Unified Model for Generating Answers and Explanations in Visual Question Answering	Jan 25, 2023	DecoderExplanation Generation	—Unverified
VQAttack: Transferable Adversarial Attacks on Visual Question Answering via Pre-trained Models	Feb 16, 2024	Adversarial RobustnessLanguage Modelling	—Unverified
Towards Automated Error Analysis: Learning to Characterize Errors	Jan 13, 2022	Common Sense ReasoningMeta-Learning	—Unverified
Towards Causal VQA: Revealing and Reducing Spurious Correlations by Invariant and Covariant Semantic Editing	Dec 16, 2019	Question AnsweringVisual Question Answering	—Unverified
Towards Complex Document Understanding By Discrete Reasoning	Jul 25, 2022	document understandingQuestion Answering	—Unverified
Towards Developing a Multilingual and Code-Mixed Visual Question Answering System by Knowledge Distillation	Sep 10, 2021	Knowledge DistillationQuestion Answering	—Unverified
Actively Seeking and Learning from Live Data	Apr 5, 2019	Domain AdaptationMeta-Learning	—Unverified
Towards Escaping from Language Bias and OCR Error: Semantics-Centered Text Visual Question Answering	Mar 24, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
A survey on VQA_Datasets and Approaches	May 2, 2021	Question AnsweringSurvey	—Unverified
A Survey of Vision-Language Pre-training from the Lens of Multimodal Machine Translation	Jun 12, 2023	Image CaptioningMachine Translation	—Unverified
A Study on Multimodal and Interactive Explanations for Visual Question Answering	Mar 1, 2020	Explainable Artificial Intelligence (XAI)Prediction	—Unverified
A Study of Autoregressive Decoders for Multi-Tasking in Computer Vision	Mar 30, 2023	DecoderMulti-Task Learning	—Unverified
Towards General Purpose Vision Systems: An End-to-End Task-Agnostic Vision-Language Architecture	Jan 1, 2022	Question AnsweringVisual Question Answering	—Unverified
Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language Models	Aug 18, 2023	Image-text matchingObject Localization	—Unverified
AstroLLaVA: towards the unification of astronomical data and natural language	Apr 11, 2025	AstronomyImage Captioning	—Unverified
Towards Human-Level Understanding of Complex Process Engineering Schematics: A Pedagogical, Introspective Multi-Agent Framework for Open-Domain Question Answering	Aug 24, 2024	knowledge editingOpen-Domain Question Answering	—Unverified
VQA with Cascade of Self- and Co-Attention Blocks	Feb 28, 2023	Question AnsweringVisual Question Answering	—Unverified

Show:10 25 50

← PrevPage 37 of 44Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified