Image Comprehension

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–49 of 49 papers

Title	Date	Tasks	Status
What Large Language Models Bring to Text-rich VQA?	Nov 13, 2023	Image ComprehensionOptical Character Recognition (OCR)	—Unverified
Multiplane Prior Guided Few-Shot Aerial Scene Rendering	Jun 7, 2024	Image ComprehensionNeRF	—Unverified
An End-to-End OCR Text Re-organization Sequence Learning for Rich-text Detail Image Comprehension	Aug 1, 2020	Decoderglobal-optimization	—Unverified
Aquila: A Hierarchically Aligned Visual-Language Model for Enhanced Remote Sensing Image Comprehension	Nov 9, 2024	Image ComprehensionLanguage Modeling	—Unverified
GeoLocator: a location-integrated large multimodal model for inferring geo-privacy	Nov 21, 2023	Image Comprehension	—Unverified
CMMCoT: Enhancing Complex Multi-Image Comprehension via Multi-Modal Chain-of-Thought and Memory Augmentation	Mar 7, 2025	Image ComprehensionMemorization	—Unverified
CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal Models with Multiple Image Inputs	Jan 5, 2024	Image ComprehensionImage to text	—Unverified
CSVQA: A Chinese Multimodal Benchmark for Evaluating STEM Reasoning Capabilities of VLMs	May 30, 2025	DiagnosticImage Comprehension	—Unverified
EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM	Dec 12, 2024	Image ComprehensionImage Generation	—Unverified
FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs	Sep 20, 2024	Image CaptioningImage Comprehension	—Unverified
Hidden flaws behind expert-level accuracy of multimodal GPT-4 vision in medicine	Jan 16, 2024	DiagnosticImage Comprehension	—Unverified
InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output	Jul 3, 2024	ArticlesImage Comprehension	—Unverified
IW-Bench: Evaluating Large Multimodal Models for Converting Image-to-Web	Sep 14, 2024	Image Comprehension	—Unverified
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models	Jan 10, 2025	FormImage Comprehension	—Unverified
Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA	Jan 29, 2024	BenchmarkingImage Comprehension	—Unverified
Alleviating Hallucination in Large Vision-Language Models with Active Retrieval Augmentation	Aug 1, 2024	HallucinationImage Comprehension	—Unverified
On the Performance of Multimodal Language Models	Oct 4, 2023	BenchmarkingBinary Classification	—Unverified
RAD: Retrieval-Augmented Decision-Making of Meta-Actions with Vision-Language Models in Autonomous Driving	Mar 18, 2025	Autonomous DrivingDecision Making	—Unverified
Rec-GPT4V: Multimodal Recommendation with Large Vision-Language Models	Feb 13, 2024	Image ComprehensionMultimodal Recommendation	—Unverified
RGB-Th-Bench: A Dense benchmark for Visual-Thermal Understanding of Vision Language Models	Mar 25, 2025	Image ComprehensionVisual Reasoning	—Unverified
SimpleVQA: Multimodal Factuality Evaluation for Multimodal Large Language Models	Feb 18, 2025	Image ComprehensionQuestion Answering	—Unverified
SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition	Jan 18, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Survey of different Large Language Model Architectures: Trends, Benchmarks, and Challenges	Dec 4, 2024	Code GenerationImage Comprehension	—Unverified
Teach Multimodal LLMs to Comprehend Electrocardiographic Images	Oct 21, 2024	DiagnosticImage Comprehension	—Unverified

Show:10 25 50

← PrevPage 2 of 2Next →

No leaderboard results yet.