Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1001–1025 of 2177 papers

Title	Date	Tasks	Status
World to Code: Multi-modal Data Generation via Self-Instructed Compositional Captioning and Filtering	Sep 30, 2024	Optical Character Recognition (OCR)Question Answering	CodeCode Available
MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning	Sep 30, 2024	Mixture-of-ExpertsOptical Character Recognition (OCR)	—Unverified
TrojVLM: Backdoor Attack Against Vision Language Models	Sep 28, 2024	Backdoor AttackImage Captioning	—Unverified
3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models	Sep 28, 2024	DiagnosticLanguage Modeling	—Unverified
Charting the Future: Using Chart Question-Answering for Scalable Evaluation of LLM-Driven Data Visualizations	Sep 27, 2024	Chart Question AnsweringQuestion Answering	—Unverified
Enhancing Explainability in Multimodal Large Language Models Using Ontological Context	Sep 27, 2024	Image CaptioningQuestion Answering	—Unverified
ZALM3: Zero-Shot Enhancement of Vision-Language Alignment via In-Context Information in Multi-Turn Multimodal Medical Dialogue	Sep 26, 2024	Medical Visual Question AnsweringQuestion Answering	—Unverified
DARE: Diverse Visual Question Answering with Robustness Evaluation	Sep 26, 2024	image-classificationImage Classification	—Unverified
Robotic Environmental State Recognition with Pre-Trained Vision-Language Models and Black-Box Optimization	Sep 26, 2024	Image to textImage-to-Text Retrieval	—Unverified
A Unified Hallucination Mitigation Framework for Large Vision-Language Models	Sep 24, 2024	HallucinationQuestion Answering	CodeCode Available
Detect, Describe, Discriminate: Moving Beyond VQA for MLLM Evaluation	Sep 23, 2024	Multiple-choiceQuestion Answering	—Unverified
Can CLIP Count Stars? An Empirical Study on Quantity Bias in CLIP	Sep 23, 2024	Image GenerationQuestion Answering	—Unverified
@Bench: Benchmarking Vision-Language Models for Human-centered Assistive Technology	Sep 21, 2024	BenchmarkingDepth Estimation	—Unverified
Vision Language Models Can Parse Floor Plan Maps	Sep 19, 2024	Image CaptioningQuestion Answering	—Unverified
OneEncoder: A Lightweight Framework for Progressive Alignment of Modalities	Sep 17, 2024	cross-modal alignmentQuestion Answering	—Unverified
Sparks of Artificial General Intelligence(AGI) in Semiconductor Material Science: Early Explorations into the Next Frontier of Generative AI-Assisted Electron Micrograph Analysis	Sep 17, 2024	In-Context LearningQuestion Answering	—Unverified
CAST: Cross-modal Alignment Similarity Test for Vision Language Models	Sep 17, 2024	cross-modal alignmentQuestion Answering	CodeCode Available
NEVLP: Noise-Robust Framework for Efficient Vision-Language Pre-training	Sep 15, 2024	Contrastive Learningcross-modal alignment	—Unverified
Explore the Hallucination on Low-level Perception for MLLMs	Sep 15, 2024	HallucinationQuestion Answering	—Unverified
Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types	Sep 14, 2024	Language ModelingLanguage Modelling	CodeCode Available
Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering	Sep 11, 2024	Question AnsweringVisual Question Answering	—Unverified
Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks	Sep 11, 2024	Image CaptioningQuestion Answering	CodeCode Available
VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning	Sep 10, 2024	Question AnsweringVisual Question Answering	—Unverified
Mitigating Hallucination in Visual-Language Models via Re-Balancing Contrastive Decoding	Sep 10, 2024	HallucinationImage Captioning	—Unverified
Breaking Neural Network Scaling Laws with Modularity	Sep 9, 2024	Question AnsweringVisual Question Answering	—Unverified

Show:10 25 50

← PrevPage 41 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified