Image Comprehension

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–49 of 49 papers

Title	Date	Tasks	Status
CLIC: Contrastive Learning Framework for Unsupervised Image Complexity Representation	Nov 19, 2024	AttributeContrastive Learning	CodeCode Available
MIRe: Enhancing Multimodal Queries Representation via Fusion-Free Modality Interaction for Multimodal Retrieval	Nov 13, 2024	Image ComprehensionInformation Retrieval	CodeCode Available
Aquila: A Hierarchically Aligned Visual-Language Model for Enhanced Remote Sensing Image Comprehension	Nov 9, 2024	Image ComprehensionLanguage Modeling	—Unverified
Teach Multimodal LLMs to Comprehend Electrocardiographic Images	Oct 21, 2024	DiagnosticImage Comprehension	—Unverified
FTII-Bench: A Comprehensive Multimodal Benchmark for Flow Text with Image Insertion	Oct 16, 2024	ArticlesImage Comprehension	CodeCode Available
FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs	Sep 20, 2024	Image CaptioningImage Comprehension	—Unverified
IW-Bench: Evaluating Large Multimodal Models for Converting Image-to-Web	Sep 14, 2024	Image Comprehension	—Unverified
Alleviating Hallucination in Large Vision-Language Models with Active Retrieval Augmentation	Aug 1, 2024	HallucinationImage Comprehension	—Unverified
InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output	Jul 3, 2024	ArticlesImage Comprehension	CodeCode Available
Unveiling Glitches: A Deep Dive into Image Encoding Bugs within CLIP	Jun 30, 2024	HallucinationImage Comprehension	—Unverified
VGA: Vision GUI Assistant -- Minimizing Hallucinations through Image-Centric Fine-Tuning	Jun 20, 2024	Image ComprehensionQuestion Answering	CodeCode Available
Multiplane Prior Guided Few-Shot Aerial Scene Rendering	Jun 7, 2024	Image ComprehensionNeRF	—Unverified
MM-MATH: Advancing Multimodal Math Evaluation with Process Evaluation and Fine-grained Classification	Apr 7, 2024	Image ComprehensionMath	CodeCode Available
Rec-GPT4V: Multimodal Recommendation with Large Vision-Language Models	Feb 13, 2024	Image ComprehensionMultimodal Recommendation	—Unverified
Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA	Jan 29, 2024	BenchmarkingImage Comprehension	—Unverified
SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition	Jan 18, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Hidden flaws behind expert-level accuracy of multimodal GPT-4 vision in medicine	Jan 16, 2024	DiagnosticImage Comprehension	—Unverified
CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal Models with Multiple Image Inputs	Jan 5, 2024	Image ComprehensionImage to text	CodeCode Available
GeoLocator: a location-integrated large multimodal model for inferring geo-privacy	Nov 21, 2023	Image Comprehension	—Unverified
What Large Language Models Bring to Text-rich VQA?	Nov 13, 2023	Image ComprehensionOptical Character Recognition (OCR)	—Unverified
On the Performance of Multimodal Language Models	Oct 4, 2023	BenchmarkingBinary Classification	—Unverified
InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition	Sep 26, 2023	ArticlesImage Comprehension	CodeCode Available
Towards Practical and Efficient Image-to-Speech Captioning with Vision-Language Pre-training and Multi-modal Tokens	Sep 15, 2023	Image ComprehensionLanguage Modeling	—Unverified
An End-to-End OCR Text Re-organization Sequence Learning for Rich-text Detail Image Comprehension	Aug 1, 2020	Decoderglobal-optimization	—Unverified

Show:10 25 50

← PrevPage 2 of 2Next →

No leaderboard results yet.