Dense Video Captioning

Most natural videos contain numerous events. For example, in a video of a “man playing a piano”, the video might also contain “another man dancing” or “a crowd clapping”. The task of dense video captioning involves both detecting and describing events in a video.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 76 papers

Title	Date	Tasks	Status	Hype
Show, Tell and Summarize: Dense Video Captioning Using Visual Cue Aided Sentence Summarization	Jun 25, 2025	Dense Video CaptioningDescriptive	—Unverified	0
Dense Video Captioning using Graph-based Sentence Summarization	Jun 25, 2025	Dense Video CaptioningSentence	—Unverified	0
TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation	Apr 24, 2025	Caption GenerationDense Video Captioning	—Unverified	0
Watch and Learn: Leveraging Expert Knowledge and Language for Surgical Video Understanding	Mar 14, 2025	DenoisingDense Video Captioning	—Unverified	0
VidChain: Chain-of-Tasks with Metric-based Direct Preference Optimization for Dense Video Captioning	Jan 12, 2025	Dense Video CaptioningVideo Captioning	CodeCode Available	1
Event-Equalized Dense Video Captioning	Jan 1, 2025	Dense Video CaptioningVideo Captioning	—Unverified	0
HiCM^2: Hierarchical Compact Memory Modeling for Dense Video Captioning	Dec 19, 2024	Dense Video CaptioningVideo Captioning	CodeCode Available	1
Implicit Location-Caption Alignment via Complementary Masking for Weakly-Supervised Dense Video Captioning	Dec 17, 2024	Dense Video CaptioningDescriptive	CodeCode Available	0
Exploring Temporal Event Cues for Dense Video Captioning in Cyclic Co-learning	Dec 16, 2024	Contrastive LearningDense Video Captioning	—Unverified	0
Video LLMs for Temporal Reasoning in Long Videos	Dec 4, 2024	Action SegmentationDense Video Captioning	—Unverified	0

Show:10 25 50

← PrevPage 1 of 8Next →

All datasets ActivityNet Captions YouCook2 ViTT VidChapters-7M

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VTimeLLM	CIDEr	27.6	—	Unverified
2	Vid2Seq	METEOR	17	—	Unverified
3	ADV-INF + Global	METEOR	16.36	—	Unverified
4	Bi-directional+intra captioning	METEOR	11.28	—	Unverified
5	GVL	METEOR	10.03	—	Unverified
6	TSRM-CMG-HRNN+SCST	METEOR	9.71	—	Unverified
7	PDVC (TSP features, no SCST)	METEOR	9.03	—	Unverified
8	TSP	METEOR	8.75	—	Unverified
9	CM²	METEOR	8.55	—	Unverified
10	BMT	METEOR	8.44	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HiCM²	CIDEr	71.84	—	Unverified
2	Vid2Seq (HowTo100M+VidChapters-7M PT)	CIDEr	67.2	—	Unverified
3	Vid2Seq	CIDEr	47.1	—	Unverified
4	E2vidD6-MASSalign-BiD	ROUGE-L	39.03	—	Unverified
5	CM²	CIDEr	31.66	—	Unverified
6	GVL	CIDEr	26.52	—	Unverified
7	PDVC (TSN features, no SCST)	CIDEr	22.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	E2ESG	CIDEr	25	—	Unverified
2	Vid2Seq (VidChapters-7M PT)	SODA	0.15	—	Unverified
3	HiCM²	SODA	0.15	—	Unverified
4	Vid2Seq	SODA	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vid2Seq	CIDEr	55.7	—	Unverified