Caption Generation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 310 papers

Title	Date	Tasks	Status	Hype
Improving Image Captioning by Leveraging Intra- and Inter-layer Global Representation in Transformer Network	Dec 13, 2020	Caption GenerationDecoder	CodeCode Available	1
TAP: Text-Aware Pre-training for Text-VQA and Text-Caption	Dec 8, 2020	Caption GenerationLanguage Modeling	CodeCode Available	1
Improving Image Captioning with Better Use of Captions	Jun 21, 2020	Caption GenerationImage Captioning	CodeCode Available	1
Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs	Mar 1, 2020	AttributeCaption Generation	CodeCode Available	1
Deep Reinforcement Learning For Sequence to Sequence Models	May 24, 2018	Abstractive Text SummarizationCaption Generation	CodeCode Available	1
Grad-CAM++: Improved Visual Explanations for Deep Convolutional Networks	Oct 30, 2017	3D Action RecognitionAction Recognition	CodeCode Available	1
Frame- and Segment-Level Features and Candidate Pool Evaluation for Video Caption Generation	Aug 17, 2016	Caption GenerationDecoder	CodeCode Available	1
Video captioning with recurrent networks based on frame- and video-level features and visual content classification	Dec 9, 2015	Caption GenerationGeneral Classification	CodeCode Available	1
Microsoft COCO Captions: Data Collection and Evaluation Server	Apr 1, 2015	Caption Generation	CodeCode Available	1
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention	Feb 10, 2015	Caption GenerationImage Captioning	CodeCode Available	1
GNN-ViTCap: GNN-Enhanced Multiple Instance Learning with Vision Transformers for Whole Slide Image Classification and Captioning	Jul 9, 2025	Caption GenerationClustering	—Unverified	0
EditInspector: A Benchmark for Evaluation of Text-Guided Image Edits	Jun 11, 2025	Artifact DetectionCaption Generation	—Unverified	0
Attention-based transformer models for image captioning across languages: An in-depth survey and evaluation	Jun 3, 2025	Caption GenerationImage Captioning	—Unverified	0
NEXT: Multi-Grained Mixture of Experts via Text-Modulation for Multi-Modal Object Re-ID	May 26, 2025	AttributeCaption Generation	—Unverified	0
GC-KBVQA: A New Four-Stage Framework for Enhancing Knowledge Based Visual Question Answering Performance	May 25, 2025	Caption GenerationQuestion Answering	—Unverified	0
Temporal Object Captioning for Street Scene Videos from LiDAR Tracks	May 22, 2025	Caption GenerationVideo Captioning	—Unverified	0
Vision-Language Modeling Meets Remote Sensing: Models, Datasets and Perspectives	May 20, 2025	Caption GenerationContrastive Learning	—Unverified	0
TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation	Apr 24, 2025	Caption GenerationDense Video Captioning	—Unverified	0
Low-hallucination Synthetic Captions for Large-Scale Vision-Language Model Pre-training	Apr 17, 2025	Caption GenerationHallucination	—Unverified	0
3D CoCa: Contrastive Learners are 3D Captioners	Apr 13, 2025	3D dense captioningCaption Generation	CodeCode Available	0
Group-based Distinctive Image Captioning with Memory Difference Encoding and Attention	Apr 3, 2025	Caption GenerationContrastive Learning	—Unverified	0
Identifying Multi-modal Knowledge Neurons in Pretrained Transformers via Two-stage Filtering	Mar 29, 2025	Caption Generationknowledge editing	—Unverified	0
LaPIG: Cross-Modal Generation of Paired Thermal and Visible Facial Images	Mar 20, 2025	Caption GenerationDiversity	—Unverified	0
IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification	Mar 13, 2025	Caption Generation	—Unverified	0
Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models	Mar 8, 2025	Caption GenerationQuestion Answering	—Unverified	0
Fine-Grained Video Captioning through Scene Graph Consolidation	Feb 23, 2025	Caption GenerationImage Captioning	—Unverified	0
LongCaptioning: Unlocking the Power of Long Caption Generation in Large Multimodal Models	Feb 21, 2025	Caption GenerationVideo Captioning	—Unverified	0
Enhancing Chest X-ray Classification through Knowledge Injection in Cross-Modality Learning	Feb 19, 2025	Caption GenerationClassification	—Unverified	0
FE-LWS: Refined Image-Text Representations via Decoder Stacking and Fused Encodings for Remote Sensing Image Captioning	Feb 13, 2025	Caption GenerationDecoder	—Unverified	0
Expertized Caption Auto-Enhancement for Video-Text Retrieval	Feb 5, 2025	Caption GenerationRetrieval	CodeCode Available	0
Do Large Multimodal Models Solve Caption Generation for Scientific Figures? Lessons Learned from SCICAP Challenge 2023	Jan 31, 2025	ArticlesCaption Generation	—Unverified	0
MAMS: Model-Agnostic Module Selection Framework for Video Captioning	Jan 30, 2025	Caption GenerationVideo Captioning	—Unverified	0
Measuring and Mitigating Hallucinations in Vision-Language Dataset Generation for Remote Sensing	Jan 24, 2025	Caption GenerationDataset Generation	—Unverified	0
Understanding How Paper Writers Use AI-Generated Captions in Figure Caption Writing	Jan 10, 2025	Caption Generation	—Unverified	0
Multi-LLM Collaborative Caption Generation in Scientific Documents	Jan 5, 2025	Caption GenerationImage to text	CodeCode Available	0
Time Series Language Model for Descriptive Caption Generation	Jan 3, 2025	Caption GenerationDenoising	—Unverified	0
Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning	Dec 31, 2024	Caption GenerationDecoder	—Unverified	0
Multimodal Preference Data Synthetic Alignment with Reward Model	Dec 23, 2024	2kCaption Generation	CodeCode Available	0
Learning from Massive Human Videos for Universal Humanoid Pose Control	Dec 18, 2024	Caption GenerationHumanoid Control	—Unverified	0
From Simple to Professional: A Combinatorial Controllable Image Captioning Agent	Dec 15, 2024	Caption Generationcontrollable image captioning	CodeCode Available	0
DIR: Retrieval-Augmented Image Captioning with Comprehensive Understanding	Dec 2, 2024	Caption GenerationDomain Generalization	—Unverified	0
Benchmarking Multimodal Models for Ukrainian Language Understanding Across Academic and Cultural Domains	Nov 22, 2024	BenchmarkingCaption Generation	—Unverified	0
Everything is a Video: Unifying Modalities through Next-Frame Prediction	Nov 15, 2024	Caption GenerationCross-Modal Retrieval	—Unverified	0
Grounded Video Caption Generation	Nov 12, 2024	Caption GenerationImage Captioning	—Unverified	0
SLAM-AAC: Enhancing Audio Captioning with Paraphrasing Augmentation and CLAP-Refine through LLMs	Oct 12, 2024	AudioCapsAudio captioning	CodeCode Available	0
GEM-VPC: A dual Graph-Enhanced Multimodal integration for Video Paragraph Captioning	Oct 12, 2024	Caption GenerationDecoder	—Unverified	0
EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer	Sep 17, 2024	Audio GenerationCaption Generation	—Unverified	0
CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving	Aug 19, 2024	Autonomous DrivingCaption Generation	—Unverified	0
Mol2Lang-VLM: Vision- and Text-Guided Generative Pre-trained Language Models for Advancing Molecule Captioning through Multimodal Fusion	Aug 15, 2024	Caption GenerationDecoder	CodeCode Available	0
See It All: Contextualized Late Aggregation for 3D Dense Captioning	Aug 14, 2024	3D dense captioningAll	—Unverified	0

Show:10 25 50

← PrevPage 2 of 7Next →

No leaderboard results yet.