Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1151–1175 of 2177 papers

Title	Date	Tasks	Status
CREPE: Coordinate-Aware End-to-End Document Parser	May 1, 2024	document understandingOptical Character Recognition (OCR)	—Unverified
Beyond Human Vision: The Role of Large Vision Language Models in Microscope Image Analysis	May 1, 2024	Image CaptioningQuestion Answering	—Unverified
Multi-Page Document Visual Question Answering using Self-Attention Scoring Mechanism	Apr 29, 2024	document understandingGPU	CodeCode Available
Efficiency in Focus: LayerNorm as a Catalyst for Fine-tuning Medical Visual Language Pre-trained Models	Apr 25, 2024	Medical Visual Question Answeringparameter-efficient fine-tuning	—Unverified
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites	Apr 25, 2024	4kLanguage Modeling	—Unverified
Fusion of Domain-Adapted Vision and Language Models for Medical Visual Question Answering	Apr 24, 2024	Language ModelingLanguage Modelling	—Unverified
Grounded Knowledge-Enhanced Medical VLP for Chest X-Ray	Apr 23, 2024	Medical Visual Question AnsweringQuestion Answering	—Unverified
Wiki-LLaVA: Hierarchical Retrieval-Augmented Generation for Multimodal LLMs	Apr 23, 2024	Question AnsweringRetrieval	—Unverified
Self-Bootstrapped Visual-Language Model for Knowledge Selection and Question Answering	Apr 22, 2024	Language ModelingLanguage Modelling	CodeCode Available
WangLab at MEDIQA-M3G 2024: Multimodal Medical Answer Generation using Large Language Models	Apr 22, 2024	Answer Generationimage-classification	—Unverified
Lost in Space: Probing Fine-grained Spatial Understanding in Vision and Language Resamplers	Apr 21, 2024	DiagnosticImage Captioning	CodeCode Available
Exploring Diverse Methods in Visual Question Answering	Apr 21, 2024	Question AnsweringVisual Question Answering	—Unverified
PDF-MVQA: A Dataset for Multimodal Information Retrieval in PDF-based Visual Question Answering	Apr 19, 2024	ArticlesInformation Retrieval	—Unverified
Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning	Apr 19, 2024	Benchmarkingcounterfactual	—Unverified
TextSquare: Scaling up Text-Centric Visual Instruction Tuning	Apr 19, 2024	HallucinationHallucination Evaluation	—Unverified
MedThink: Explaining Medical Visual Question Answering via Multimodal Decision-Making Rationale	Apr 18, 2024	Decision MakingMedical Visual Question Answering	—Unverified
Consistency and Uncertainty: Identifying Unreliable Responses From Black-Box Vision-Language Models for Selective Visual Question Answering	Apr 16, 2024	Language ModellingPrediction	—Unverified
ViTextVQA: A Large-Scale Visual Question Answering Dataset for Evaluating Vietnamese Text Comprehension in Images	Apr 16, 2024	Multimodal Deep LearningOptical Character Recognition (OCR)	CodeCode Available
Find The Gap: Knowledge Base Reasoning For Visual Question Answering	Apr 16, 2024	Question AnsweringRetrieval	—Unverified
HOI-Ref: Hand-Object Interaction Referral in Egocentric Vision	Apr 15, 2024	ObjectQuestion Answering	—Unverified
Bridging Vision and Language Spaces with Assignment Prediction	Apr 15, 2024	Cross-Modal RetrievalImage Captioning	CodeCode Available
Language Models Meet Anomaly Detection for Better Interpretability and Generalizability	Apr 11, 2024	Anomaly DetectionLanguage Modelling	CodeCode Available
Learning to Localize Objects Improves Spatial Reasoning in Visual-LLMs	Apr 11, 2024	DescriptiveHallucination	CodeCode Available
InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD	Apr 9, 2024	4kLanguage Modeling	CodeCode Available
OmniFusion Technical Report	Apr 9, 2024	MM-VetTextVQA	CodeCode Available

Show:10 25 50

← PrevPage 47 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified