Dense Video Captioning

Most natural videos contain numerous events. For example, in a video of a “man playing a piano”, the video might also contain “another man dancing” or “a crowd clapping”. The task of dense video captioning involves both detecting and describing events in a video.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 76 papers

Title	Date	Tasks	Status	Hype
SoccerNet 2023 Challenges Results	Sep 12, 2023	Action SpottingCamera Calibration	CodeCode Available	1
Streaming Dense Video Captioning	Apr 1, 2024	Dense Video CaptioningLive Video Captioning	—Unverified	0
Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring Sequential Events Detection for Dense Video Captioning	Jun 14, 2020	Dense CaptioningDense Video Captioning	—Unverified	0
Technical Report for Soccernet 2023 -- Dense Video Captioning	Oct 31, 2024	Dense Video CaptioningVideo Captioning	—Unverified	0
The 8th AI City Challenge	Apr 15, 2024	Dense Video CaptioningVideo Captioning	—Unverified	0
TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation	Apr 24, 2025	Caption GenerationDense Video Captioning	—Unverified	0
Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment	Jul 5, 2023	Dense Video CaptioningLanguage Modelling	—Unverified	0
A Closer Look at Temporal Ordering in the Segmentation of Instructional Videos	Sep 30, 2022	Dense Video CaptioningSegmentation	—Unverified	0
Activitynet 2019 Task 3: Exploring Contexts for Dense Captioning Events in Videos	Jul 11, 2019	Dense CaptioningDense Video Captioning	—Unverified	0
A Review of Deep Learning for Video Captioning	Apr 22, 2023	Deep LearningDense Video Captioning	—Unverified	0
Attention is all you need for Videos: Self-attention based Video Summarization using Universal Transformers	Jun 6, 2019	AllDense Video Captioning	—Unverified	0
Empowering LLMs with Pseudo-Untrimmed Videos for Audio-Visual Temporal Understanding	Mar 24, 2024	Dense Video CaptioningTemporal Localization	—Unverified	0
Dense Video Captioning: A Survey of Techniques, Datasets and Evaluation Protocols	Nov 5, 2023	Caption GenerationDense Video Captioning	—Unverified	0
Dense Video Captioning using Graph-based Sentence Summarization	Jun 25, 2025	Dense Video CaptioningSentence	—Unverified	0
DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement	Apr 3, 2024	Dense Video CaptioningDiversity	—Unverified	0
DVCFlow: Modeling Information Flow Towards Human-like Video Captioning	Nov 19, 2021	Dense Video CaptioningDiversity	—Unverified	0
End-to-end Dense Video Captioning as Sequence Generation	Jan 16, 2022	Dense Video CaptioningDescriptive	—Unverified	0
End-to-end Dense Video Captioning as Sequence Generation	Apr 18, 2022	Dense Video CaptioningDescriptive	—Unverified	0
Event-Equalized Dense Video Captioning	Jan 1, 2025	Dense Video CaptioningVideo Captioning	—Unverified	0
Exo2EgoDVC: Dense Video Captioning of Egocentric Procedural Activities Using Web Instructional Videos	Nov 28, 2023	Dense Video CaptioningTransfer Learning	—Unverified	0
Exploring Temporal Event Cues for Dense Video Captioning in Cyclic Co-learning	Dec 16, 2024	Contrastive LearningDense Video Captioning	—Unverified	0
Exploiting Auxiliary Caption for Video Grounding	Jan 15, 2023	Contrastive LearningDense Video Captioning	—Unverified	0
iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video Captioning and Video Question Answering	Nov 16, 2020	Common Sense ReasoningDense Video Captioning	—Unverified	0
Jointly Localizing and Describing Events for Dense Video Captioning	Apr 23, 2018	AttributeDense Video Captioning	—Unverified	0
PIC 4th Challenge: Semantic-Assisted Multi-Feature Encoding and Multi-Head Decoding for Dense Video Captioning	Jul 6, 2022	Dense Video CaptioningVideo Captioning	—Unverified	0

Show:10 25 50

← PrevPage 2 of 4Next →

All datasets ActivityNet Captions YouCook2 ViTT VidChapters-7M

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VTimeLLM	CIDEr	27.6	—	Unverified
2	Vid2Seq	METEOR	17	—	Unverified
3	ADV-INF + Global	METEOR	16.36	—	Unverified
4	Bi-directional+intra captioning	METEOR	11.28	—	Unverified
5	GVL	METEOR	10.03	—	Unverified
6	TSRM-CMG-HRNN+SCST	METEOR	9.71	—	Unverified
7	PDVC (TSP features, no SCST)	METEOR	9.03	—	Unverified
8	TSP	METEOR	8.75	—	Unverified
9	CM²	METEOR	8.55	—	Unverified
10	BMT	METEOR	8.44	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HiCM²	CIDEr	71.84	—	Unverified
2	Vid2Seq (HowTo100M+VidChapters-7M PT)	CIDEr	67.2	—	Unverified
3	Vid2Seq	CIDEr	47.1	—	Unverified
4	E2vidD6-MASSalign-BiD	ROUGE-L	39.03	—	Unverified
5	CM²	CIDEr	31.66	—	Unverified
6	GVL	CIDEr	26.52	—	Unverified
7	PDVC (TSN features, no SCST)	CIDEr	22.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	E2ESG	CIDEr	25	—	Unverified
2	Vid2Seq (VidChapters-7M PT)	SODA	0.15	—	Unverified
3	HiCM²	SODA	0.15	—	Unverified
4	Vid2Seq	SODA	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vid2Seq	CIDEr	55.7	—	Unverified