Image Description

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 154 papers

Title	Date	Tasks	Status	Hype
Text-Visual Semantic Constrained AI-Generated Image Quality Assessment	Jul 14, 2025	Image DescriptionImage Quality Assessment	CodeCode Available	1
Mitigating Hallucinations in Vision-Language Models through Image-Guided Head Suppression	May 22, 2025	HallucinationImage Description	CodeCode Available	1
Patho-R1: A Multimodal Reinforcement Learning-Based Pathology Expert Reasoner	May 16, 2025	Cross-Modal RetrievalDiagnostic	CodeCode Available	2
Advanced Chest X-Ray Analysis via Transformer-Based Image Descriptors and Cross-Model Attention Mechanism	Apr 23, 2025	DecoderImage Description	—Unverified	0
LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning	Mar 21, 2025	Code GenerationDeep Reinforcement Learning	—Unverified	0
Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model	Mar 10, 2025	Image DescriptionImage Generation	CodeCode Available	2
VisBias: Measuring Explicit and Implicit Social Biases in Vision Language Models	Mar 10, 2025	Image DescriptionMultiple-choice	CodeCode Available	0
SPIDER: A Comprehensive Multi-Organ Supervised Pathology Dataset and Baseline Models	Mar 4, 2025	Image Description	CodeCode Available	1
Boli: A dataset for understanding stuttering experience and analyzing stuttered speech	Jan 27, 2025	Image Description	—Unverified	0
IDEA: Image Description Enhanced CLIP-Adapter	Jan 15, 2025	Few-Shot Image Classificationimage-classification	CodeCode Available	0
A Preliminary Survey of Semantic Descriptive Model for Images	Jan 13, 2025	DescriptiveImage Description	—Unverified	0
Exploring the Use of Contrastive Language-Image Pre-Training for Human Posture Classification: Insights from Yoga Pose Analysis	Jan 13, 2025	Image DescriptionTransfer Learning	—Unverified	0
RRHF-V: Ranking Responses to Mitigate Hallucinations in Multimodal Large Language Models with Human Feedback	Jan 1, 2025	HallucinationImage Comprehension	CodeCode Available	0
Personalizing Multimodal Large Language Models for Image Captioning: An Experimental Analysis	Dec 4, 2024	Image CaptioningImage Description	—Unverified	0
TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models	Nov 2, 2024	Image DescriptionImage Generation	—Unverified	0
MiCEval: Unveiling Multimodal Chain of Thought's Quality via Image Description and Reasoning Steps	Oct 18, 2024	Image DescriptionInformativeness	CodeCode Available	0
Difficult Task Yes but Simple Task No: Unveiling the Laziness in Multimodal LLMs	Oct 15, 2024	Image DescriptionMultiple-choice	CodeCode Available	0
Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions	Jun 11, 2024	HallucinationImage Description	CodeCode Available	2
Language Augmentation in CLIP for Improved Anatomy Detection on Multi-modal Medical Images	May 31, 2024	AnatomyImage Description	—Unverified	0
Data-augmented phrase-level alignment for mitigating object hallucination	May 28, 2024	Data AugmentationHallucination	—Unverified	0
WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization	May 28, 2024	Domain GeneralizationImage Description	—Unverified	0
MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets	Mar 5, 2024	DiversityImage Description	CodeCode Available	0
Artwork Explanation in Large-scale Vision Language Models	Feb 29, 2024	Explanation GenerationImage Description	—Unverified	0
A Cognitive Evaluation Benchmark of Image Reasoning and Description for Large Vision-Language Models	Feb 28, 2024	Image DescriptionQuestion Answering	—Unverified	0
Can Large Multimodal Models Uncover Deep Semantics Behind Images?	Feb 17, 2024	Image Description	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 7Next →

No leaderboard results yet.