Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1551–1600 of 2177 papers

Title	Date	Tasks	Status
PAR: Prompt-Aware Token Reduction Method for Efficient Large Multimodal Models	Oct 9, 2024	Question AnsweringRetrieval	—Unverified
Retrieving Visual Facts For Few-Shot Visual Question Answering	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified
Reusable Slotwise Mechanisms	Feb 21, 2023	Future predictionObject	—Unverified
Visual Question Answering in the Medical Domain	Sep 20, 2023	Contrastive LearningMedical Visual Question Answering	—Unverified
Chop Chop BERT: Visual Question Answering by Chopping VisualBERT's Heads	Apr 30, 2021	Question AnsweringVisual Question Answering	—Unverified
Visual Question Answering on 360° Images	Jan 10, 2020	Question AnsweringVisual Question Answering	—Unverified
Revisiting Multi-Modal LLM Evaluation	Aug 9, 2024	Chart UnderstandingOptical Character Recognition	—Unverified
Visual Question Answering on Image Sets	Aug 27, 2020	Question AnsweringVisual Question Answering	—Unverified
ChitroJera: A Regionally Relevant Visual Question Answering Dataset for Bangla	Oct 19, 2024	Question AnsweringVisual Question Answering	—Unverified
ReWind: Understanding Long Videos with Instructed Learnable Memory	Nov 23, 2024	Large Language ModelQuestion Answering	—Unverified
Visual Question Answering on Multiple Remote Sensing Image Modalities	May 21, 2025	Question AnsweringVisual Question Answering	—Unverified
ReXVQA: A Large-scale Visual Question Answering Benchmark for Generalist Chest X-ray Understanding	Jun 4, 2025	NegationNegation Detection	—Unverified
A Causal Approach to Mitigate Modality Preference Bias in Medical Visual Question Answering	May 22, 2025	counterfactualMedical Visual Question Answering	—Unverified
CHIC: Corporate Document for Visual question Answering	May 1, 2023	Information RetrievalQuestion Answering	—Unverified
RL-CSDia: Representation Learning of Computer Science Diagrams	Mar 10, 2021	Question AnsweringRepresentation Learning	—Unverified
Charting the Future: Using Chart Question-Answering for Scalable Evaluation of LLM-Driven Data Visualizations	Sep 27, 2024	Chart Question AnsweringQuestion Answering	—Unverified
R-LLaVA: Improving Med-VQA Understanding through Visual Region of Interest	Oct 27, 2024	Medical Visual Question AnsweringMultiple-choice	—Unverified
RMLVQA: A Margin Loss Approach for Visual Question Answering With Language Biases	Jan 1, 2023	Question AnsweringVisual Question Answering	—Unverified
Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets	May 21, 2025	Dataset GenerationDescriptive	—Unverified
RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis	Feb 25, 2024	Code GenerationMultimodal Reasoning	—Unverified
RoboMamba: Efficient Vision-Language-Action Model for Robotic Reasoning and Manipulation	Jun 6, 2024	Common Sense ReasoningMamba	—Unverified
Robotic Environmental State Recognition with Pre-Trained Vision-Language Models and Black-Box Optimization	Sep 26, 2024	Image to textImage-to-Text Retrieval	—Unverified
Visual Question Answering Using Semantic Information from Image Descriptions	Apr 23, 2020	Question AnsweringVisual Question Answering	—Unverified
Characterizing Misclassifications of Deep NLP Models	Mar 12, 2021	named-entity-recognitionNamed Entity Recognition	—Unverified
Robustness Analysis of Visual QA Models by Basic Questions	Sep 14, 2017	Question AnsweringVisual Question Answering	—Unverified
Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru	Mar 10, 2025	Autonomous DrivingQuestion Answering	—Unverified
Robust Visual Question Answering: Datasets, Methods, and Future Challenges	Jul 21, 2023	Question AnsweringVisual Question Answering	—Unverified
Robust Visual Reasoning via Language Guided Neural Module Networks	Dec 1, 2021	Question AnsweringReferring Expression	—Unverified
Characterizing Datasets for Social Visual Question Answering, and the New TinySocial Dataset	Oct 8, 2020	Question AnsweringVisual Question Answering	—Unverified
Visual Question Answering (VQA) on Images with Superimposed Text	Jun 13, 2023	Question AnsweringVisual Question Answering	—Unverified
Abduction of Domain Relationships from Data for VQA	Feb 13, 2025	Question AnsweringVisual Question Answering	—Unverified
Chain of Thought Prompt Tuning in Vision Language Models	Apr 16, 2023	Domain Generalizationimage-classification	—Unverified
RS-MoE: Mixture of Experts for Remote Sensing Image Captioning and Visual Question Answering	Nov 3, 2024	DescriptiveImage Captioning	—Unverified
RS-RAG: Bridging Remote Sensing Imagery and Comprehensive Knowledge with a Multi-Modal Dataset and Retrieval-Augmented Generation Model	Apr 7, 2025	Image Captioningimage-classification	—Unverified
Chain of Reasoning for Visual Question Answering	Dec 1, 2018	ObjectQuestion Answering	—Unverified
Read and Think: An Efficient Step-wise Multimodal Language Model for Document Understanding and Reasoning	Feb 26, 2024	Data Augmentationdocument understanding	—Unverified
RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing Data	Oct 23, 2022	Image CaptioningImage-text Retrieval	—Unverified
RSVQA: Visual Question Answering for Remote Sensing Data	Mar 16, 2020	Land Cover ClassificationObject Counting	—Unverified
Certainly Uncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness	Jul 2, 2024	Image CaptioningQuestion Answering	—Unverified
CEGI: Measuring the trade-off between efficiency and carbon emissions for SLMs and VLMs	Dec 3, 2024	Image CaptioningQuantization	—Unverified
Visual Question Answering with Memory-Augmented Networks	Jul 17, 2017	Question AnsweringVisual Question Answering	—Unverified
Visual Question Answering with Prior Class Semantics	May 4, 2020	Question AnsweringVisual Question Answering	—Unverified
CAVL: Learning Contrastive and Adaptive Representations of Vision and Language	Apr 10, 2023	Image RetrievalPhrase Grounding	—Unverified
Visual Question Answering with Question Representation Update (QRU)	Dec 1, 2016	Question AnsweringVisual Question Answering	—Unverified
SAR Strikes Back: A New Hope for RSVQA	Jan 14, 2025	Question AnsweringVisual Question Answering	—Unverified
SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering	Nov 7, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	—Unverified
Causal Reasoning through Two Layers of Cognition for Improving Generalization in Visual Question Answering	Oct 9, 2023	Answer GenerationQuestion Answering	—Unverified
Causal-CoG: A Causal-Effect Look at Context Generation for Boosting Multi-modal Language Models	Dec 9, 2023	Question AnsweringVisual Question Answering	—Unverified
SA-VQA: Structured Alignment of Visual and Semantic Representations for Visual Question Answering	Jan 25, 2022	Question AnsweringVisual Question Answering	—Unverified
Categorizing Concepts With Basic Level for Vision-to-Language	Jun 1, 2018	ClusteringImage Captioning	—Unverified

Show:10 25 50

← PrevPage 32 of 44Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified