Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 851–900 of 2177 papers

Title	Date	Tasks	Status
Probing Visual Language Priors in VLMs	Dec 31, 2024	Question AnsweringVisual Question Answering	—Unverified
MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models	Dec 31, 2024	Multiple-choiceQuestion Answering	CodeCode Available
Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering	Dec 30, 2024	Image CaptioningObject Recognition	—Unverified
UniRS: Unifying Multi-temporal Remote Sensing Tasks through Vision Language Models	Dec 30, 2024	Question AnsweringScene Classification	CodeCode Available
HALLUCINOGEN: A Benchmark for Evaluating Object Hallucination in Large Visual-Language Models	Dec 29, 2024	HallucinationObject	CodeCode Available
ErgoChat: a Visual Query System for the Ergonomic Risk Assessment of Construction Workers	Dec 27, 2024	Image CaptioningQuestion Answering	—Unverified
LININ: Logic Integrated Neural Inference Network for Explanatory Visual Question Answering	Dec 24, 2024	Explanatory Visual Question AnsweringMultimodal Reasoning	CodeCode Available
Multi-Agents Based on Large Language Models for Knowledge-based Visual Question Answering	Dec 24, 2024	Question AnsweringVisual Question Answering	—Unverified
TextMatch: Enhancing Image-Text Consistency Through Multimodal Optimization	Dec 24, 2024	In-Context LearningQuestion Answering	—Unverified
Survey of Large Multimodal Model Datasets, Application Categories and Taxonomy	Dec 23, 2024	Image CaptioningQuestion Answering	—Unverified
Multimodal Preference Data Synthetic Alignment with Reward Model	Dec 23, 2024	2kCaption Generation	CodeCode Available
Cross-Lingual Text-Rich Visual Comprehension: An Information Theory Perspective	Dec 23, 2024	Question AnsweringVisual Question Answering	CodeCode Available
FFA Sora, video generation as fundus fluorescein angiography simulator	Dec 23, 2024	Privacy PreservingQuestion Answering	—Unverified
Prompting Large Language Models with Rationale Heuristics for Knowledge-based Visual Question Answering	Dec 22, 2024	Question AnsweringVisual Question Answering	—Unverified
SilVar: Speech Driven Multimodal Model for Reasoning Visual Question Answering and Object Localization	Dec 21, 2024	Image CaptioningMultimodal Reasoning	CodeCode Available
NeSyCoCo: A Neuro-Symbolic Concept Composer for Compositional Generalization	Dec 20, 2024	Compositional Generalization (AVG)Novel Concepts	CodeCode Available
FedPIA -- Permuting and Integrating Adapters leveraging Wasserstein Barycenters for Finetuning Foundation Models in Multi-Modal Federated Learning	Dec 19, 2024	Federated Learningparameter-efficient fine-tuning	—Unverified
Unveiling Uncertainty: A Deep Dive into Calibration and Performance of Multimodal Large Language Models	Dec 19, 2024	Autonomous DrivingImage Captioning	CodeCode Available
Consistency of Compositional Generalization across Multiple Levels	Dec 18, 2024	Meta-LearningQuestion Answering	CodeCode Available
A Concept-Centric Approach to Multi-Modality Learning	Dec 18, 2024	Image-text matchingQuestion Answering	—Unverified
Track the Answer: Extending TextVQA from Image to Video with Spatio-Temporal Clues	Dec 17, 2024	Language ModelingLanguage Modelling	CodeCode Available
CPath-Omni: A Unified Multimodal Foundation Model for Patch and Whole Slide Image Analysis in Computational Pathology	Dec 16, 2024	Language ModelingLanguage Modelling	—Unverified
LLaVA Steering: Visual Instruction Tuning with 500x Fewer Parameters through Modality Linear Representation-Steering	Dec 16, 2024	In-Context LearningInstruction Following	CodeCode Available
Overview of TREC 2024 Medical Video Question Answering (MedVidQA) Track	Dec 15, 2024	Image CaptioningMedical Question Answering	—Unverified
Damage Assessment after Natural Disasters with UAVs: Semantic Feature Extraction using Deep Learning	Dec 14, 2024	Decision MakingQuestion Answering	—Unverified
Patch-level Sounding Object Tracking for Audio-Visual Question Answering	Dec 14, 2024	Audio-visual Question AnsweringObject Tracking	—Unverified
VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation	Dec 13, 2024	Instruction FollowingQuestion Answering	—Unverified
ViUniT: Visual Unit Tests for More Robust Visual Programming	Dec 12, 2024	Image GenerationImage-text matching	—Unverified
Discrete Subgraph Sampling for Interpretable Graph based Visual Question Answering	Dec 11, 2024	Explainable artificial intelligenceExplainable Artificial Intelligence (XAI)	CodeCode Available
Illusory VQA: Benchmarking and Enhancing Multimodal Models on Visual Illusions	Dec 11, 2024	BenchmarkingQuestion Answering	CodeCode Available
Barking Up The Syntactic Tree: Enhancing VLM Training with Syntactic Losses	Dec 11, 2024	Image-text RetrievalQuestion Answering	—Unverified
How Vision-Language Tasks Benefit from Large Pre-trained Models: A Survey	Dec 11, 2024	Image CaptioningQuestion Answering	—Unverified
A Multimodal Social Agent	Dec 11, 2024	Common Sense ReasoningDecision Making	—Unverified
Can We Generate Visual Programs Without Prompting LLMs?	Dec 11, 2024	Data AugmentationQuestion Answering	—Unverified
MM-PoE: Multiple Choice Reasoning via. Process of Elimination using Multi-Modal Models	Dec 10, 2024	Multiple-choiceQuestion Answering	CodeCode Available
ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance	Dec 9, 2024	Image GenerationLanguage Modeling	—Unverified
Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels	Dec 9, 2024	Question AnsweringVisual Question Answering	—Unverified
FM2DS: Few-Shot Multimodal Multihop Data Synthesis with Knowledge Distillation for Question Answering	Dec 9, 2024	Knowledge DistillationQuestion Answering	CodeCode Available
Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora	Dec 6, 2024	Language ModelingLanguage Modelling	—Unverified
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling	Dec 6, 2024	document understandingHallucination	—Unverified
EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation	Dec 6, 2024	MMEQuestion Answering	—Unverified
T2I-FactualBench: Benchmarking the Factuality of Text-to-Image Models with Knowledge-Intensive Concepts	Dec 5, 2024	BenchmarkingImage Generation	—Unverified
Copy-Move Forgery Detection and Question Answering for Remote Sensing Image	Dec 3, 2024	Question AnsweringVisual Question Answering	CodeCode Available
Explainable and Interpretable Multimodal Large Language Models: A Comprehensive Survey	Dec 3, 2024	Cross-Modal RetrievalNatural Language Understanding	—Unverified
CEGI: Measuring the trade-off between efficiency and carbon emissions for SLMs and VLMs	Dec 3, 2024	Image CaptioningQuantization	—Unverified
Understanding the World's Museums through Vision-Language Reasoning	Dec 2, 2024	BenchmarkingQuestion Answering	CodeCode Available
DLaVA: Document Language and Vision Assistant for Answer Localization with Enhanced Interpretability and Trustworthiness	Nov 29, 2024	Optical Character Recognition (OCR)Question Answering	CodeCode Available
SURE-VQA: Systematic Understanding of Robustness Evaluation in Medical VQA Tasks	Nov 29, 2024	Question AnsweringVisual Question Answering	CodeCode Available
Beyond Logit Lens: Contextual Embeddings for Robust Hallucination Detection & Grounding in VLMs	Nov 28, 2024	AttributeHallucination	—Unverified
Sparse Attention Vectors: Generative Multimodal Model Features Are Discriminative Vision-Language Classifiers	Nov 28, 2024	Image Captioningimage-classification	—Unverified

Show:10 25 50

← PrevPage 18 of 44Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified