Image Description

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 154 papers

Title	Date	Tasks	Status	Hype
Text-Visual Semantic Constrained AI-Generated Image Quality Assessment	Jul 14, 2025	Image DescriptionImage Quality Assessment	CodeCode Available	1
Mitigating Hallucinations in Vision-Language Models through Image-Guided Head Suppression	May 22, 2025	HallucinationImage Description	CodeCode Available	1
Patho-R1: A Multimodal Reinforcement Learning-Based Pathology Expert Reasoner	May 16, 2025	Cross-Modal RetrievalDiagnostic	CodeCode Available	2
Advanced Chest X-Ray Analysis via Transformer-Based Image Descriptors and Cross-Model Attention Mechanism	Apr 23, 2025	DecoderImage Description	—Unverified	0
LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning	Mar 21, 2025	Code GenerationDeep Reinforcement Learning	—Unverified	0
Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model	Mar 10, 2025	Image DescriptionImage Generation	CodeCode Available	2
VisBias: Measuring Explicit and Implicit Social Biases in Vision Language Models	Mar 10, 2025	Image DescriptionMultiple-choice	CodeCode Available	0
SPIDER: A Comprehensive Multi-Organ Supervised Pathology Dataset and Baseline Models	Mar 4, 2025	Image Description	CodeCode Available	1
Boli: A dataset for understanding stuttering experience and analyzing stuttered speech	Jan 27, 2025	Image Description	—Unverified	0
IDEA: Image Description Enhanced CLIP-Adapter	Jan 15, 2025	Few-Shot Image Classificationimage-classification	CodeCode Available	0
A Preliminary Survey of Semantic Descriptive Model for Images	Jan 13, 2025	DescriptiveImage Description	—Unverified	0
Exploring the Use of Contrastive Language-Image Pre-Training for Human Posture Classification: Insights from Yoga Pose Analysis	Jan 13, 2025	Image DescriptionTransfer Learning	—Unverified	0
RRHF-V: Ranking Responses to Mitigate Hallucinations in Multimodal Large Language Models with Human Feedback	Jan 1, 2025	HallucinationImage Comprehension	CodeCode Available	0
Personalizing Multimodal Large Language Models for Image Captioning: An Experimental Analysis	Dec 4, 2024	Image CaptioningImage Description	—Unverified	0
TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models	Nov 2, 2024	Image DescriptionImage Generation	—Unverified	0
MiCEval: Unveiling Multimodal Chain of Thought's Quality via Image Description and Reasoning Steps	Oct 18, 2024	Image DescriptionInformativeness	CodeCode Available	0
Difficult Task Yes but Simple Task No: Unveiling the Laziness in Multimodal LLMs	Oct 15, 2024	Image DescriptionMultiple-choice	CodeCode Available	0
Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions	Jun 11, 2024	HallucinationImage Description	CodeCode Available	2
Language Augmentation in CLIP for Improved Anatomy Detection on Multi-modal Medical Images	May 31, 2024	AnatomyImage Description	—Unverified	0
Data-augmented phrase-level alignment for mitigating object hallucination	May 28, 2024	Data AugmentationHallucination	—Unverified	0
WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization	May 28, 2024	Domain GeneralizationImage Description	—Unverified	0
MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets	Mar 5, 2024	DiversityImage Description	CodeCode Available	0
Artwork Explanation in Large-scale Vision Language Models	Feb 29, 2024	Explanation GenerationImage Description	—Unverified	0
A Cognitive Evaluation Benchmark of Image Reasoning and Description for Large Vision-Language Models	Feb 28, 2024	Image DescriptionQuestion Answering	—Unverified	0
Can Large Multimodal Models Uncover Deep Semantics Behind Images?	Feb 17, 2024	Image Description	CodeCode Available	1
Seeing the Unseen: Visual Common Sense for Semantic Placement	Jan 15, 2024	Common Sense ReasoningImage Description	—Unverified	0
InfoVisDial: An Informative Visual Dialogue Dataset by Bridging Large Multimodal and Language Models	Dec 21, 2023	Image Description	—Unverified	0
Localized Symbolic Knowledge Distillation for Visual Commonsense Models	Dec 8, 2023	Image DescriptionInstruction Following	CodeCode Available	0
Impressions: Understanding Visual Semiotics and Aesthetic Impact	Oct 27, 2023	Image CaptioningImage Description	—Unverified	0
Large Language Models can Share Images, Too!	Oct 23, 2023	Image DescriptionSentence	CodeCode Available	0
Towards image compression with perfect realism at ultra-low bitrates	Oct 16, 2023	Image CompressionImage Description	CodeCode Available	1
Bounding and Filling: A Fast and Flexible Framework for Image Captioning	Oct 15, 2023	Image CaptioningImage Description	CodeCode Available	0
MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning	Oct 14, 2023	Image ClassificationImage Description	CodeCode Available	7
ContextRef: Evaluating Referenceless Metrics For Image Description Generation	Sep 21, 2023	Image Description	CodeCode Available	0
A skeletonization algorithm for gradient-based optimization	Sep 5, 2023	BenchmarkingDeep Learning	CodeCode Available	1
A Fine-Grained Image Description Generation Method Based on Joint Objectives	Sep 2, 2023	Image DescriptionObject	—Unverified	0
Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond	Aug 24, 2023	Chart Question AnsweringFS-MEVQA	CodeCode Available	5
Chatting Makes Perfect: Chat-based Image Retrieval	May 31, 2023	Chat-based Image RetrievalImage Description	CodeCode Available	1
PandaGPT: One Model To Instruction-Follow Them All	May 25, 2023	AllImage Description	CodeCode Available	2
DiffCap: Exploring Continuous Diffusion on Image Captioning	May 20, 2023	Caption GenerationDiversity	—Unverified	0
Caption Anything: Interactive Image Description with Diverse Multimodal Controls	May 4, 2023	controllable image captioningImage Captioning	CodeCode Available	3
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models	Apr 20, 2023	Image DescriptionLanguage Modelling	CodeCode Available	7
Fan-Beam Binarization Difference Projection (FB-BDP): A Novel Local Object Descriptor for Fine-Grained Leaf Image Retrieval	Jan 1, 2023	BinarizationImage Description	CodeCode Available	0
DialogCC: An Automated Pipeline for Creating High-Quality Multi-Modal Dialogue Dataset	Dec 8, 2022	DiversityImage Description	CodeCode Available	1
Visual Spatial Description: Controlled Spatial-Oriented Image-to-Text Generation	Oct 20, 2022	DecoderImage Captioning	CodeCode Available	1
Improving Visual-Semantic Embeddings by Learning Semantically-Enhanced Hard Negatives for Cross-modal Information Retrieval	Oct 10, 2022	Cross-Modal Information RetrievalImage Description	CodeCode Available	0
Facial Expression Recognition and Image Description Generation in Vietnamese	Aug 12, 2022	DescriptiveEmotion Recognition	—Unverified	0
Skeletal Human Action Recognition using Hybrid Attention based Graph Convolutional Network	Jul 12, 2022	Action RecognitionImage Description	CodeCode Available	0
Image Description Dataset for Language Learners	Jun 1, 2022	Image DescriptionSentence	—Unverified	0
Multilingual Image Corpus – Towards a Multimodal and Multilingual Dataset	Jun 1, 2022	Caption Generationimage-classification	—Unverified	0

Show:10 25 50

← PrevPage 1 of 4Next →

No leaderboard results yet.