Caption Generation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 310 papers

Title	Date	Tasks	Status	Hype	Score
LLMDet: Learning Strong Open-Vocabulary Object Detectors under the Supervision of Large Language Models	Jan 31, 2025	Caption GenerationLanguage Modeling	CodeCode Available	4	5
MeaCap: Memory-Augmented Zero-shot Image Captioning	Mar 6, 2024	Caption GenerationImage Captioning	CodeCode Available	2	5
Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning	Aug 22, 2023	Caption GenerationLarge Language Model	CodeCode Available	2	5
Fine-grained Image Captioning with CLIP Reward	May 26, 2022	Caption GenerationDescriptive	CodeCode Available	2	5
AudioSetCaps: An Enriched Audio-Caption Dataset using Automated Generation Pipeline with Large Audio and Language Models	Nov 28, 2024	Audio captioningAudio to Text Retrieval	CodeCode Available	2	5
DenseWorld-1M: Towards Detailed Dense Grounded Caption in the Real World	Jun 30, 2025	Caption GenerationObject	CodeCode Available	2	5
PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance	Nov 4, 2024	Caption GenerationMultiple-choice	CodeCode Available	2	5
Positive-Augmented Contrastive Learning for Vision-and-Language Evaluation and Training	Oct 9, 2024	Caption GenerationContrastive Learning	CodeCode Available	2	5
Segment and Caption Anything	Dec 1, 2023	Caption Generationobject-detection	CodeCode Available	2	5
SynthVLM: High-Efficiency and High-Quality Synthetic Data for Vision Language Models	Jul 30, 2024	Caption GenerationQuestion Answering	CodeCode Available	2	5
FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion	Jun 1, 2025	Audio captioningCaption Generation	CodeCode Available	2	5
Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions	Aug 8, 2023	Caption GenerationImage Captioning	CodeCode Available	2	5
SonicVerse: Multi-Task Learning for Music Feature-Informed Captioning	Jun 18, 2025	Caption GenerationDescriptive	CodeCode Available	2	5
Human-like Controllable Image Captioning with Verb-specific Semantic Roles	Mar 22, 2021	Caption Generationcontrollable image captioning	CodeCode Available	1	5
Controllable Video Captioning with an Exemplar Sentence	Dec 2, 2021	Caption GenerationDecoder	CodeCode Available	1	5
Improving Image Captioning by Leveraging Intra- and Inter-layer Global Representation in Transformer Network	Dec 13, 2020	Caption GenerationDecoder	CodeCode Available	1	5
Grad-CAM++: Improved Visual Explanations for Deep Convolutional Networks	Oct 30, 2017	3D Action RecognitionAction Recognition	CodeCode Available	1	5
COSMic: A Coherence-Aware Generation Metric for Image Descriptions	Sep 11, 2021	Caption GenerationImage Captioning	CodeCode Available	1	5
HCQA @ Ego4D EgoSchema Challenge 2024	Jun 22, 2024	Caption Generation	CodeCode Available	1	5
Improving Image Captioning with Better Use of Captions	Jun 21, 2020	Caption GenerationImage Captioning	CodeCode Available	1	5
End-to-End Dense Video Captioning with Parallel Decoding	Aug 17, 2021	Caption GenerationDense Video Captioning	CodeCode Available	1	5
Frame- and Segment-Level Features and Candidate Pool Evaluation for Video Caption Generation	Aug 17, 2016	Caption GenerationDecoder	CodeCode Available	1	5
BCAmirs at SemEval-2024 Task 4: Beyond Words: A Multimodal and Multilingual Exploration of Persuasion in Memes	Apr 3, 2024	Caption GenerationHierarchical Multi-label Classification	CodeCode Available	1	5
Belief Revision based Caption Re-ranker with Visual Semantic Information	Sep 16, 2022	Caption GenerationImage Captioning	CodeCode Available	1	5
EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge Distillation and Modal-adaptive Pruning	Oct 14, 2022	Caption GenerationKnowledge Distillation	CodeCode Available	1	5

Show:10 25 50

← PrevPage 1 of 13Next →

No leaderboard results yet.