Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 2177 papers

Title	Date	Tasks	Status	Hype
Cross-Lingual Text-Rich Visual Comprehension: An Information Theory Perspective	Dec 23, 2024	Question AnsweringVisual Question Answering	CodeCode Available	0
Survey of Large Multimodal Model Datasets, Application Categories and Taxonomy	Dec 23, 2024	Image CaptioningQuestion Answering	—Unverified	0
FFA Sora, video generation as fundus fluorescein angiography simulator	Dec 23, 2024	Privacy PreservingQuestion Answering	—Unverified	0
Prompting Large Language Models with Rationale Heuristics for Knowledge-based Visual Question Answering	Dec 22, 2024	Question AnsweringVisual Question Answering	—Unverified	0
SilVar: Speech Driven Multimodal Model for Reasoning Visual Question Answering and Object Localization	Dec 21, 2024	Image CaptioningMultimodal Reasoning	CodeCode Available	0
NeSyCoCo: A Neuro-Symbolic Concept Composer for Compositional Generalization	Dec 20, 2024	Compositional Generalization (AVG)Novel Concepts	CodeCode Available	0
Defeasible Visual Entailment: Benchmark, Evaluator, and Reward-Driven Optimization	Dec 19, 2024	Contrastive LearningDecision Making	CodeCode Available	1
AutoTrust: Benchmarking Trustworthiness in Large Vision Language Models for Autonomous Driving	Dec 19, 2024	Autonomous DrivingBenchmarking	CodeCode Available	2
FedPIA -- Permuting and Integrating Adapters leveraging Wasserstein Barycenters for Finetuning Foundation Models in Multi-Modal Federated Learning	Dec 19, 2024	Federated Learningparameter-efficient fine-tuning	—Unverified	0
Unveiling Uncertainty: A Deep Dive into Calibration and Performance of Multimodal Large Language Models	Dec 19, 2024	Autonomous DrivingImage Captioning	CodeCode Available	0
Consistency of Compositional Generalization across Multiple Levels	Dec 18, 2024	Meta-LearningQuestion Answering	CodeCode Available	0
MedCoT: Medical Chain of Thought via Hierarchical Expert	Dec 18, 2024	DiagnosticMedical Visual Question Answering	CodeCode Available	1
A Concept-Centric Approach to Multi-Modality Learning	Dec 18, 2024	Image-text matchingQuestion Answering	—Unverified	0
MedMax: Mixed-Modal Instruction Tuning for Training Biomedical Assistants	Dec 17, 2024	Image CaptioningQuestion Answering	CodeCode Available	1
Track the Answer: Extending TextVQA from Image to Video with Spatio-Temporal Clues	Dec 17, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
LLaVA Steering: Visual Instruction Tuning with 500x Fewer Parameters through Modality Linear Representation-Steering	Dec 16, 2024	In-Context LearningInstruction Following	CodeCode Available	0
CPath-Omni: A Unified Multimodal Foundation Model for Patch and Whole Slide Image Analysis in Computational Pathology	Dec 16, 2024	Language ModelingLanguage Modelling	—Unverified	0
Overview of TREC 2024 Medical Video Question Answering (MedVidQA) Track	Dec 15, 2024	Image CaptioningMedical Question Answering	—Unverified	0
Patch-level Sounding Object Tracking for Audio-Visual Question Answering	Dec 14, 2024	Audio-visual Question AnsweringObject Tracking	—Unverified	0
Damage Assessment after Natural Disasters with UAVs: Semantic Feature Extraction using Deep Learning	Dec 14, 2024	Decision MakingQuestion Answering	—Unverified	0
VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation	Dec 13, 2024	Instruction FollowingQuestion Answering	—Unverified	0
DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding	Dec 13, 2024	Chart UnderstandingMixture-of-Experts	CodeCode Available	9
ViUniT: Visual Unit Tests for More Robust Visual Programming	Dec 12, 2024	Image GenerationImage-text matching	—Unverified	0
Doe-1: Closed-Loop Autonomous Driving with Large World Model	Dec 12, 2024	Autonomous DrivingDecision Making	CodeCode Available	2
Towards a Multimodal Large Language Model with Pixel-Level Insight for Biomedicine	Dec 12, 2024	Language ModelingLanguage Modelling	CodeCode Available	2
Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition	Dec 12, 2024	EgoSchema	CodeCode Available	3
A Multimodal Social Agent	Dec 11, 2024	Common Sense ReasoningDecision Making	—Unverified	0
Illusory VQA: Benchmarking and Enhancing Multimodal Models on Visual Illusions	Dec 11, 2024	BenchmarkingQuestion Answering	CodeCode Available	0
How Vision-Language Tasks Benefit from Large Pre-trained Models: A Survey	Dec 11, 2024	Image CaptioningQuestion Answering	—Unverified	0
Barking Up The Syntactic Tree: Enhancing VLM Training with Syntactic Losses	Dec 11, 2024	Image-text RetrievalQuestion Answering	—Unverified	0
Discrete Subgraph Sampling for Interpretable Graph based Visual Question Answering	Dec 11, 2024	Explainable artificial intelligenceExplainable Artificial Intelligence (XAI)	CodeCode Available	0
Can We Generate Visual Programs Without Prompting LLMs?	Dec 11, 2024	Data AugmentationQuestion Answering	—Unverified	0
IMPACT: A Large-scale Integrated Multimodal Patent Analysis and Creation Dataset for Design Patents	Dec 10, 2024	Cross-Modal RetrievalImage Classification	CodeCode Available	1
BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities	Dec 10, 2024	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	2
MM-PoE: Multiple Choice Reasoning via. Process of Elimination using Multi-Modal Models	Dec 10, 2024	Multiple-choiceQuestion Answering	CodeCode Available	0
ProVision: Programmatically Scaling Vision-centric Instruction Data for Multimodal Language Models	Dec 9, 2024	Graph GenerationScene Graph Generation	CodeCode Available	1
FM2DS: Few-Shot Multimodal Multihop Data Synthesis with Knowledge Distillation for Question Answering	Dec 9, 2024	Knowledge DistillationQuestion Answering	CodeCode Available	0
Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels	Dec 9, 2024	Question AnsweringVisual Question Answering	—Unverified	0
ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance	Dec 9, 2024	Image GenerationLanguage Modeling	—Unverified	0
TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action	Dec 7, 2024	Depth EstimationMathematical Reasoning	CodeCode Available	2
RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts	Dec 7, 2024	Change DetectionImage Comprehension	CodeCode Available	1
Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora	Dec 6, 2024	Language ModelingLanguage Modelling	—Unverified	0
LinVT: Empower Your Image-level Large Language Model to Understand Videos	Dec 6, 2024	Language ModelingLanguage Modelling	CodeCode Available	2
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale	Dec 6, 2024	Multimodal ReasoningVisual Question Answering	CodeCode Available	1
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling	Dec 6, 2024	document understandingHallucination	CodeCode Available	0
EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation	Dec 6, 2024	MMEQuestion Answering	—Unverified	0
VisionZip: Longer is Better but Not Necessary in Vision Language Models	Dec 5, 2024	Video UnderstandingVisual Question Answering	CodeCode Available	3
T2I-FactualBench: Benchmarking the Factuality of Text-to-Image Models with Knowledge-Intensive Concepts	Dec 5, 2024	BenchmarkingImage Generation	—Unverified	0
FlashSloth: Lightning Multimodal Large Language Models via Embedded Visual Compression	Dec 5, 2024	DescriptiveVisual Question Answering	CodeCode Available	2
A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs	Dec 4, 2024	Visual Question Answering	CodeCode Available	1

Show:10 25 50

← PrevPage 7 of 44Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified