Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 851–875 of 2177 papers

Title	Date	Tasks	Status
Probing Visual Language Priors in VLMs	Dec 31, 2024	Question AnsweringVisual Question Answering	—Unverified
MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models	Dec 31, 2024	Multiple-choiceQuestion Answering	CodeCode Available
UniRS: Unifying Multi-temporal Remote Sensing Tasks through Vision Language Models	Dec 30, 2024	Question AnsweringScene Classification	CodeCode Available
Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering	Dec 30, 2024	Image CaptioningObject Recognition	—Unverified
HALLUCINOGEN: A Benchmark for Evaluating Object Hallucination in Large Visual-Language Models	Dec 29, 2024	HallucinationObject	CodeCode Available
ErgoChat: a Visual Query System for the Ergonomic Risk Assessment of Construction Workers	Dec 27, 2024	Image CaptioningQuestion Answering	—Unverified
TextMatch: Enhancing Image-Text Consistency Through Multimodal Optimization	Dec 24, 2024	In-Context LearningQuestion Answering	—Unverified
LININ: Logic Integrated Neural Inference Network for Explanatory Visual Question Answering	Dec 24, 2024	Explanatory Visual Question AnsweringMultimodal Reasoning	CodeCode Available
Multi-Agents Based on Large Language Models for Knowledge-based Visual Question Answering	Dec 24, 2024	Question AnsweringVisual Question Answering	—Unverified
Cross-Lingual Text-Rich Visual Comprehension: An Information Theory Perspective	Dec 23, 2024	Question AnsweringVisual Question Answering	CodeCode Available
FFA Sora, video generation as fundus fluorescein angiography simulator	Dec 23, 2024	Privacy PreservingQuestion Answering	—Unverified
Multimodal Preference Data Synthetic Alignment with Reward Model	Dec 23, 2024	2kCaption Generation	CodeCode Available
Survey of Large Multimodal Model Datasets, Application Categories and Taxonomy	Dec 23, 2024	Image CaptioningQuestion Answering	—Unverified
Prompting Large Language Models with Rationale Heuristics for Knowledge-based Visual Question Answering	Dec 22, 2024	Question AnsweringVisual Question Answering	—Unverified
SilVar: Speech Driven Multimodal Model for Reasoning Visual Question Answering and Object Localization	Dec 21, 2024	Image CaptioningMultimodal Reasoning	CodeCode Available
NeSyCoCo: A Neuro-Symbolic Concept Composer for Compositional Generalization	Dec 20, 2024	Compositional Generalization (AVG)Novel Concepts	CodeCode Available
Unveiling Uncertainty: A Deep Dive into Calibration and Performance of Multimodal Large Language Models	Dec 19, 2024	Autonomous DrivingImage Captioning	CodeCode Available
FedPIA -- Permuting and Integrating Adapters leveraging Wasserstein Barycenters for Finetuning Foundation Models in Multi-Modal Federated Learning	Dec 19, 2024	Federated Learningparameter-efficient fine-tuning	—Unverified
Consistency of Compositional Generalization across Multiple Levels	Dec 18, 2024	Meta-LearningQuestion Answering	CodeCode Available
A Concept-Centric Approach to Multi-Modality Learning	Dec 18, 2024	Image-text matchingQuestion Answering	—Unverified
Track the Answer: Extending TextVQA from Image to Video with Spatio-Temporal Clues	Dec 17, 2024	Language ModelingLanguage Modelling	CodeCode Available
CPath-Omni: A Unified Multimodal Foundation Model for Patch and Whole Slide Image Analysis in Computational Pathology	Dec 16, 2024	Language ModelingLanguage Modelling	—Unverified
LLaVA Steering: Visual Instruction Tuning with 500x Fewer Parameters through Modality Linear Representation-Steering	Dec 16, 2024	In-Context LearningInstruction Following	CodeCode Available
Overview of TREC 2024 Medical Video Question Answering (MedVidQA) Track	Dec 15, 2024	Image CaptioningMedical Question Answering	—Unverified
Damage Assessment after Natural Disasters with UAVs: Semantic Feature Extraction using Deep Learning	Dec 14, 2024	Decision MakingQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 35 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified