Image Description

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 154 papers

Title	Date	Tasks	Status
LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning	Mar 21, 2025	Code GenerationDeep Reinforcement Learning	—Unverified
VisBias: Measuring Explicit and Implicit Social Biases in Vision Language Models	Mar 10, 2025	Image DescriptionMultiple-choice	CodeCode Available
Boli: A dataset for understanding stuttering experience and analyzing stuttered speech	Jan 27, 2025	Image Description	—Unverified
IDEA: Image Description Enhanced CLIP-Adapter	Jan 15, 2025	Few-Shot Image Classificationimage-classification	CodeCode Available
Exploring the Use of Contrastive Language-Image Pre-Training for Human Posture Classification: Insights from Yoga Pose Analysis	Jan 13, 2025	Image DescriptionTransfer Learning	—Unverified
A Preliminary Survey of Semantic Descriptive Model for Images	Jan 13, 2025	DescriptiveImage Description	—Unverified
RRHF-V: Ranking Responses to Mitigate Hallucinations in Multimodal Large Language Models with Human Feedback	Jan 1, 2025	HallucinationImage Comprehension	CodeCode Available
Personalizing Multimodal Large Language Models for Image Captioning: An Experimental Analysis	Dec 4, 2024	Image CaptioningImage Description	—Unverified
TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models	Nov 2, 2024	Image DescriptionImage Generation	—Unverified
MiCEval: Unveiling Multimodal Chain of Thought's Quality via Image Description and Reasoning Steps	Oct 18, 2024	Image DescriptionInformativeness	CodeCode Available
Difficult Task Yes but Simple Task No: Unveiling the Laziness in Multimodal LLMs	Oct 15, 2024	Image DescriptionMultiple-choice	CodeCode Available
Language Augmentation in CLIP for Improved Anatomy Detection on Multi-modal Medical Images	May 31, 2024	AnatomyImage Description	—Unverified
Data-augmented phrase-level alignment for mitigating object hallucination	May 28, 2024	Data AugmentationHallucination	—Unverified
WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization	May 28, 2024	Domain GeneralizationImage Description	—Unverified
MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets	Mar 5, 2024	DiversityImage Description	CodeCode Available
Artwork Explanation in Large-scale Vision Language Models	Feb 29, 2024	Explanation GenerationImage Description	—Unverified
A Cognitive Evaluation Benchmark of Image Reasoning and Description for Large Vision-Language Models	Feb 28, 2024	Image DescriptionQuestion Answering	—Unverified
Seeing the Unseen: Visual Common Sense for Semantic Placement	Jan 15, 2024	Common Sense ReasoningImage Description	—Unverified
InfoVisDial: An Informative Visual Dialogue Dataset by Bridging Large Multimodal and Language Models	Dec 21, 2023	Image Description	—Unverified
Localized Symbolic Knowledge Distillation for Visual Commonsense Models	Dec 8, 2023	Image DescriptionInstruction Following	CodeCode Available
Impressions: Understanding Visual Semiotics and Aesthetic Impact	Oct 27, 2023	Image CaptioningImage Description	—Unverified
Large Language Models can Share Images, Too!	Oct 23, 2023	Image DescriptionSentence	CodeCode Available
Bounding and Filling: A Fast and Flexible Framework for Image Captioning	Oct 15, 2023	Image CaptioningImage Description	CodeCode Available
ContextRef: Evaluating Referenceless Metrics For Image Description Generation	Sep 21, 2023	Image Description	CodeCode Available
A Fine-Grained Image Description Generation Method Based on Joint Objectives	Sep 2, 2023	Image DescriptionObject	—Unverified

Show:10 25 50

← PrevPage 2 of 7Next →

No leaderboard results yet.