Image Comprehension

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–49 of 49 papers

Title	Date	Tasks	Status
Hidden flaws behind expert-level accuracy of multimodal GPT-4 vision in medicine	Jan 16, 2024	DiagnosticImage Comprehension	—Unverified
InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output	Jul 3, 2024	ArticlesImage Comprehension	—Unverified
IW-Bench: Evaluating Large Multimodal Models for Converting Image-to-Web	Sep 14, 2024	Image Comprehension	—Unverified
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models	Jan 10, 2025	FormImage Comprehension	—Unverified
Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA	Jan 29, 2024	BenchmarkingImage Comprehension	—Unverified
Alleviating Hallucination in Large Vision-Language Models with Active Retrieval Augmentation	Aug 1, 2024	HallucinationImage Comprehension	—Unverified
SimpleVQA: Multimodal Factuality Evaluation for Multimodal Large Language Models	Feb 18, 2025	Image ComprehensionQuestion Answering	—Unverified
SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition	Jan 18, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Survey of different Large Language Model Architectures: Trends, Benchmarks, and Challenges	Dec 4, 2024	Code GenerationImage Comprehension	—Unverified
Teach Multimodal LLMs to Comprehend Electrocardiographic Images	Oct 21, 2024	DiagnosticImage Comprehension	—Unverified
Towards Practical and Efficient Image-to-Speech Captioning with Vision-Language Pre-training and Multi-modal Tokens	Sep 15, 2023	Image ComprehensionLanguage Modeling	—Unverified
Unveiling Glitches: A Deep Dive into Image Encoding Bugs within CLIP	Jun 30, 2024	HallucinationImage Comprehension	—Unverified
What Large Language Models Bring to Text-rich VQA?	Nov 13, 2023	Image ComprehensionOptical Character Recognition (OCR)	—Unverified
On the Performance of Multimodal Language Models	Oct 4, 2023	BenchmarkingBinary Classification	—Unverified
RAD: Retrieval-Augmented Decision-Making of Meta-Actions with Vision-Language Models in Autonomous Driving	Mar 18, 2025	Autonomous DrivingDecision Making	—Unverified
Rec-GPT4V: Multimodal Recommendation with Large Vision-Language Models	Feb 13, 2024	Image ComprehensionMultimodal Recommendation	—Unverified
RGB-Th-Bench: A Dense benchmark for Visual-Thermal Understanding of Vision Language Models	Mar 25, 2025	Image ComprehensionVisual Reasoning	—Unverified
InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition	Sep 26, 2023	ArticlesImage Comprehension	CodeCode Available
RRHF-V: Ranking Responses to Mitigate Hallucinations in Multimodal Large Language Models with Human Feedback	Jan 1, 2025	HallucinationImage Comprehension	CodeCode Available
FTII-Bench: A Comprehensive Multimodal Benchmark for Flow Text with Image Insertion	Oct 16, 2024	ArticlesImage Comprehension	CodeCode Available
CLIC: Contrastive Learning Framework for Unsupervised Image Complexity Representation	Nov 19, 2024	AttributeContrastive Learning	CodeCode Available
MM-MATH: Advancing Multimodal Math Evaluation with Process Evaluation and Fine-grained Classification	Apr 7, 2024	Image ComprehensionMath	CodeCode Available
MIRe: Enhancing Multimodal Queries Representation via Fusion-Free Modality Interaction for Multimodal Retrieval	Nov 13, 2024	Image ComprehensionInformation Retrieval	CodeCode Available
VGA: Vision GUI Assistant -- Minimizing Hallucinations through Image-Centric Fine-Tuning	Jun 20, 2024	Image ComprehensionQuestion Answering	CodeCode Available

Show:10 25 50

← PrevPage 2 of 2Next →

No leaderboard results yet.