Dense Video Captioning

Most natural videos contain numerous events. For example, in a video of a “man playing a piano”, the video might also contain “another man dancing” or “a crowd clapping”. The task of dense video captioning involves both detecting and describing events in a video.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–76 of 76 papers

Title	Date	Tasks	Status
Recipe Generation from Unsegmented Cooking Videos	Sep 21, 2022	Dense Video CaptioningRecipe Generation	—Unverified
RUC+CMU: System Report for Dense Captioning Events in Videos	Jun 22, 2018	Caption GenerationDense Captioning	—Unverified
SACT: Self-Aware Multi-Space Feature Composition Transformer for Multinomial Attention for Video Captioning	Jun 25, 2020	Dense Video CaptioningVideo Captioning	—Unverified
SAVCHOI: Detecting Suspicious Activities using Dense Video Captioning with Human Object Interactions	Jul 24, 2022	Dense CaptioningDense Video Captioning	—Unverified
Semantic-Aware Pretraining for Dense Video Captioning	Apr 13, 2022	Dense CaptioningDense Video Captioning	—Unverified
Seq2Time: Sequential Knowledge Transfer for Video LLM Temporal Grounding	Nov 25, 2024	Dense Video CaptioningTransfer Learning	—Unverified
Show, Tell and Summarize: Dense Video Captioning Using Visual Cue Aided Sentence Summarization	Jun 25, 2025	Dense Video CaptioningDescriptive	—Unverified
Towards Surveillance Video-and-Language Understanding: New Dataset, Baselines, and Challenges	Sep 25, 2023	Anomaly DetectionDense Video Captioning	—Unverified
Video LLMs for Temporal Reasoning in Long Videos	Dec 4, 2024	Action SegmentationDense Video Captioning	—Unverified
Watch and Learn: Leveraging Expert Knowledge and Language for Surgical Video Understanding	Mar 14, 2025	DenoisingDense Video Captioning	—Unverified
Weakly Supervised Dense Video Captioning	Apr 5, 2017	Dense Video CaptioningLanguage Modeling	—Unverified
Weakly Supervised Dense Video Captioning via Jointly Usage of Knowledge Distillation and Cross-modal Matching	May 18, 2021	Caption GenerationCross-Modal Retrieval	—Unverified
Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning	Nov 22, 2024	Dense Video CaptioningVideo Captioning	—Unverified
Live Video Captioning	Jun 20, 2024	Dense Video CaptioningLive Video Captioning	CodeCode Available
Joint Event Detection and Description in Continuous Video Streams	Feb 28, 2018	Dense CaptioningDense Video Captioning	CodeCode Available
Implicit Location-Caption Alignment via Complementary Masking for Weakly-Supervised Dense Video Captioning	Dec 17, 2024	Dense Video CaptioningDescriptive	CodeCode Available
Global Object Proposals for Improving Multi-Sentence Video Descriptions	Jul 18, 2021	Caption GenerationDense Video Captioning	CodeCode Available
Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning	Mar 31, 2018	DecoderDense Video Captioning	CodeCode Available
Visual Transformation Telling	May 3, 2023	Dense Video CaptioningVideo Captioning	CodeCode Available
End-to-End Dense Video Captioning with Masked Transformer	Apr 3, 2018	DecoderDense Video Captioning	CodeCode Available
Towards Automatic Learning of Procedures from Web Instructional Videos	Mar 28, 2017	Dense Video CaptioningProcedure Learning	CodeCode Available
Streamlined Dense Video Captioning	Apr 8, 2019	Dense Video CaptioningReinforcement Learning	CodeCode Available
SoccerNet 2024 Challenges Results	Sep 16, 2024	Action SpottingDense Video Captioning	CodeCode Available
Dense Video Captioning Using Unsupervised Semantic Information	Dec 15, 2021	Dense Video CaptioningVideo Captioning	CodeCode Available
Sketch, Ground, and Refine: Top-Down Dense Video Captioning	Jun 19, 2021	Dense Video CaptioningSentence	CodeCode Available
Event and Entity Extraction from Generated Video Captions	Nov 5, 2022	Caption GenerationDense Video Captioning	CodeCode Available

Show:10 25 50

← PrevPage 2 of 2Next →

All datasets ActivityNet Captions YouCook2 ViTT VidChapters-7M

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VTimeLLM	CIDEr	27.6	—	Unverified
2	Vid2Seq	METEOR	17	—	Unverified
3	ADV-INF + Global	METEOR	16.36	—	Unverified
4	Bi-directional+intra captioning	METEOR	11.28	—	Unverified
5	GVL	METEOR	10.03	—	Unverified
6	TSRM-CMG-HRNN+SCST	METEOR	9.71	—	Unverified
7	PDVC (TSP features, no SCST)	METEOR	9.03	—	Unverified
8	TSP	METEOR	8.75	—	Unverified
9	CM²	METEOR	8.55	—	Unverified
10	BMT	METEOR	8.44	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HiCM²	CIDEr	71.84	—	Unverified
2	Vid2Seq (HowTo100M+VidChapters-7M PT)	CIDEr	67.2	—	Unverified
3	Vid2Seq	CIDEr	47.1	—	Unverified
4	E2vidD6-MASSalign-BiD	ROUGE-L	39.03	—	Unverified
5	CM²	CIDEr	31.66	—	Unverified
6	GVL	CIDEr	26.52	—	Unverified
7	PDVC (TSN features, no SCST)	CIDEr	22.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	E2ESG	CIDEr	25	—	Unverified
2	Vid2Seq (VidChapters-7M PT)	SODA	0.15	—	Unverified
3	HiCM²	SODA	0.15	—	Unverified
4	Vid2Seq	SODA	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vid2Seq	CIDEr	55.7	—	Unverified