Caption Generation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 310 papers

Title	Date	Tasks	Status
Fine-Grained Video Captioning through Scene Graph Consolidation	Feb 23, 2025	Caption GenerationImage Captioning	—Unverified
LongCaptioning: Unlocking the Power of Long Caption Generation in Large Multimodal Models	Feb 21, 2025	Caption GenerationVideo Captioning	—Unverified
Enhancing Chest X-ray Classification through Knowledge Injection in Cross-Modality Learning	Feb 19, 2025	Caption GenerationClassification	—Unverified
FE-LWS: Refined Image-Text Representations via Decoder Stacking and Fused Encodings for Remote Sensing Image Captioning	Feb 13, 2025	Caption GenerationDecoder	—Unverified
Expertized Caption Auto-Enhancement for Video-Text Retrieval	Feb 5, 2025	Caption GenerationRetrieval	CodeCode Available
Do Large Multimodal Models Solve Caption Generation for Scientific Figures? Lessons Learned from SCICAP Challenge 2023	Jan 31, 2025	ArticlesCaption Generation	—Unverified
MAMS: Model-Agnostic Module Selection Framework for Video Captioning	Jan 30, 2025	Caption GenerationVideo Captioning	—Unverified
Measuring and Mitigating Hallucinations in Vision-Language Dataset Generation for Remote Sensing	Jan 24, 2025	Caption GenerationDataset Generation	—Unverified
Understanding How Paper Writers Use AI-Generated Captions in Figure Caption Writing	Jan 10, 2025	Caption Generation	—Unverified
Multi-LLM Collaborative Caption Generation in Scientific Documents	Jan 5, 2025	Caption GenerationImage to text	CodeCode Available
Time Series Language Model for Descriptive Caption Generation	Jan 3, 2025	Caption GenerationDenoising	—Unverified
Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning	Dec 31, 2024	Caption GenerationDecoder	—Unverified
Multimodal Preference Data Synthetic Alignment with Reward Model	Dec 23, 2024	2kCaption Generation	CodeCode Available
Learning from Massive Human Videos for Universal Humanoid Pose Control	Dec 18, 2024	Caption GenerationHumanoid Control	—Unverified
From Simple to Professional: A Combinatorial Controllable Image Captioning Agent	Dec 15, 2024	Caption Generationcontrollable image captioning	CodeCode Available
DIR: Retrieval-Augmented Image Captioning with Comprehensive Understanding	Dec 2, 2024	Caption GenerationDomain Generalization	—Unverified
Benchmarking Multimodal Models for Ukrainian Language Understanding Across Academic and Cultural Domains	Nov 22, 2024	BenchmarkingCaption Generation	—Unverified
Everything is a Video: Unifying Modalities through Next-Frame Prediction	Nov 15, 2024	Caption GenerationCross-Modal Retrieval	—Unverified
Grounded Video Caption Generation	Nov 12, 2024	Caption GenerationImage Captioning	—Unverified
SLAM-AAC: Enhancing Audio Captioning with Paraphrasing Augmentation and CLAP-Refine through LLMs	Oct 12, 2024	AudioCapsAudio captioning	—Unverified
GEM-VPC: A dual Graph-Enhanced Multimodal integration for Video Paragraph Captioning	Oct 12, 2024	Caption GenerationDecoder	—Unverified
EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer	Sep 17, 2024	Audio GenerationCaption Generation	—Unverified
CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving	Aug 19, 2024	Autonomous DrivingCaption Generation	—Unverified
Mol2Lang-VLM: Vision- and Text-Guided Generative Pre-trained Language Models for Advancing Molecule Captioning through Multimodal Fusion	Aug 15, 2024	Caption GenerationDecoder	CodeCode Available
See It All: Contextualized Late Aggregation for 3D Dense Captioning	Aug 14, 2024	3D dense captioningAll	—Unverified

Show:10 25 50

← PrevPage 4 of 13Next →

No leaderboard results yet.