Dense Video Captioning

Most natural videos contain numerous events. For example, in a video of a “man playing a piano”, the video might also contain “another man dancing” or “a crowd clapping”. The task of dense video captioning involves both detecting and describing events in a video.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 76 papers

Title	Date	Tasks	Status	Hype	Score
VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding	Jun 13, 2024	Dense Video CaptioningMVBench	CodeCode Available	3	5
Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models	Oct 4, 2024	Dense Video CaptioningSentence	CodeCode Available	2	5
VidChapters-7M: Video Chapters at Scale	Sep 25, 2023	Dense Video CaptioningNavigate	CodeCode Available	2	5
LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos	Nov 29, 2024	Boundary DetectionDense Video Captioning	CodeCode Available	2	5
Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning	Feb 27, 2023	Dense Video CaptioningLanguage Modeling	CodeCode Available	2	5
VTimeLLM: Empower LLM to Grasp Video Moments	Nov 30, 2023	Dense Video CaptioningTemporal Relation Extraction	CodeCode Available	2	5
Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval	Apr 11, 2024	DecoderDense Video Captioning	CodeCode Available	2	5
TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning	Apr 14, 2024	Dense Video CaptioningDescriptive	CodeCode Available	2	5
VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding	May 22, 2024	Dense Video CaptioningHighlight Detection	CodeCode Available	2	5
SoccerNet-Caption: Dense Video Captioning for Soccer Broadcasts Commentaries	Apr 10, 2023	Dense Video CaptioningVideo Captioning	CodeCode Available	2	5
OmniVid: A Generative Framework for Universal Video Understanding	Mar 26, 2024	Action RecognitionDecoder	CodeCode Available	2	5
SODA: Story Oriented Dense Video Captioning Evaluation Framework	Aug 1, 2020	Dense Video CaptioningVideo Captioning	CodeCode Available	1	5
Unifying Event Detection and Captioning as Sequence Generation via Pre-Training	Jul 18, 2022	Dense Video CaptioningEvent Detection	CodeCode Available	1	5
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format	Nov 27, 2024	Dense Video CaptioningGrounded Video Question Answering	CodeCode Available	1	5
TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization Tasks	Nov 23, 2020	Action ClassificationAction Localization	CodeCode Available	1	5
SoccerNet 2023 Challenges Results	Sep 12, 2023	Action SpottingCamera Calibration	CodeCode Available	1	5
COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark	Aug 5, 2024	Dense Video CaptioningDiversity	CodeCode Available	1	5
Multimodal Pretraining for Dense Video Captioning	Nov 10, 2020	Dense Video CaptioningVideo Captioning	CodeCode Available	1	5
End-to-End Dense Video Captioning with Parallel Decoding	Aug 17, 2021	Caption GenerationDense Video Captioning	CodeCode Available	1	5
Multi-modal Dense Video Captioning	Mar 17, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Learning Grounded Vision-Language Representation for Versatile Understanding in Untrimmed Videos	Mar 11, 2023	Dense Video CaptioningNatural Language Moment Retrieval	CodeCode Available	1	5
A Better Use of Audio-Visual Cues: Dense Video Captioning with Bi-modal Transformer	May 17, 2020	Dense Video CaptioningTemporal Action Proposal Generation	CodeCode Available	1	5
HiCM^2: Hierarchical Compact Memory Modeling for Dense Video Captioning	Dec 19, 2024	Dense Video CaptioningVideo Captioning	CodeCode Available	1	5
Dense-Captioning Events in Videos: SYSU Submission to ActivityNet Challenge 2020	Jun 21, 2020	Dense CaptioningDense Video Captioning	CodeCode Available	1	5
VidChain: Chain-of-Tasks with Metric-based Direct Preference Optimization for Dense Video Captioning	Jan 12, 2025	Dense Video CaptioningVideo Captioning	CodeCode Available	1	5
Enhancing Traffic Safety with Parallel Dense Video Captioning for End-to-End Event Analysis	Apr 12, 2024	Dense Video CaptioningTransfer Learning	CodeCode Available	1	5
Towards Automatic Learning of Procedures from Web Instructional Videos	Mar 28, 2017	Dense Video CaptioningProcedure Learning	CodeCode Available	0	5
Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning	Mar 31, 2018	DecoderDense Video Captioning	CodeCode Available	0	5
Dense Video Captioning Using Unsupervised Semantic Information	Dec 15, 2021	Dense Video CaptioningVideo Captioning	CodeCode Available	0	5
End-to-End Dense Video Captioning with Masked Transformer	Apr 3, 2018	DecoderDense Video Captioning	CodeCode Available	0	5
Global Object Proposals for Improving Multi-Sentence Video Descriptions	Jul 18, 2021	Caption GenerationDense Video Captioning	CodeCode Available	0	5
Implicit Location-Caption Alignment via Complementary Masking for Weakly-Supervised Dense Video Captioning	Dec 17, 2024	Dense Video CaptioningDescriptive	CodeCode Available	0	5
Joint Event Detection and Description in Continuous Video Streams	Feb 28, 2018	Dense CaptioningDense Video Captioning	CodeCode Available	0	5
Live Video Captioning	Jun 20, 2024	Dense Video CaptioningLive Video Captioning	CodeCode Available	0	5
Event and Entity Extraction from Generated Video Captions	Nov 5, 2022	Caption GenerationDense Video Captioning	CodeCode Available	0	5
Sketch, Ground, and Refine: Top-Down Dense Video Captioning	Jun 19, 2021	Dense Video CaptioningSentence	CodeCode Available	0	5
SoccerNet 2024 Challenges Results	Sep 16, 2024	Action SpottingDense Video Captioning	CodeCode Available	0	5
Streamlined Dense Video Captioning	Apr 8, 2019	Dense Video CaptioningReinforcement Learning	CodeCode Available	0	5
Visual Transformation Telling	May 3, 2023	Dense Video CaptioningVideo Captioning	CodeCode Available	0	5
RUC+CMU: System Report for Dense Captioning Events in Videos	Jun 22, 2018	Caption GenerationDense Captioning	—Unverified	0	0
SACT: Self-Aware Multi-Space Feature Composition Transformer for Multinomial Attention for Video Captioning	Jun 25, 2020	Dense Video CaptioningVideo Captioning	—Unverified	0	0
SAVCHOI: Detecting Suspicious Activities using Dense Video Captioning with Human Object Interactions	Jul 24, 2022	Dense CaptioningDense Video Captioning	—Unverified	0	0
Semantic-Aware Pretraining for Dense Video Captioning	Apr 13, 2022	Dense CaptioningDense Video Captioning	—Unverified	0	0
Watch and Learn: Leveraging Expert Knowledge and Language for Surgical Video Understanding	Mar 14, 2025	DenoisingDense Video Captioning	—Unverified	0	0
Seq2Time: Sequential Knowledge Transfer for Video LLM Temporal Grounding	Nov 25, 2024	Dense Video CaptioningTransfer Learning	—Unverified	0	0
Show, Tell and Summarize: Dense Video Captioning Using Visual Cue Aided Sentence Summarization	Jun 25, 2025	Dense Video CaptioningDescriptive	—Unverified	0	0
Weakly Supervised Dense Video Captioning	Apr 5, 2017	Dense Video CaptioningLanguage Modeling	—Unverified	0	0
Exploring Temporal Event Cues for Dense Video Captioning in Cyclic Co-learning	Dec 16, 2024	Contrastive LearningDense Video Captioning	—Unverified	0	0
Weakly Supervised Dense Video Captioning via Jointly Usage of Knowledge Distillation and Cross-modal Matching	May 18, 2021	Caption GenerationCross-Modal Retrieval	—Unverified	0	0
Exo2EgoDVC: Dense Video Captioning of Egocentric Procedural Activities Using Web Instructional Videos	Nov 28, 2023	Dense Video CaptioningTransfer Learning	—Unverified	0	0

Show:10 25 50

← PrevPage 1 of 2Next →

All datasets ActivityNet Captions YouCook2 ViTT VidChapters-7M

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VTimeLLM	CIDEr	27.6	—	Unverified
2	Vid2Seq	METEOR	17	—	Unverified
3	ADV-INF + Global	METEOR	16.36	—	Unverified
4	Bi-directional+intra captioning	METEOR	11.28	—	Unverified
5	GVL	METEOR	10.03	—	Unverified
6	TSRM-CMG-HRNN+SCST	METEOR	9.71	—	Unverified
7	PDVC (TSP features, no SCST)	METEOR	9.03	—	Unverified
8	TSP	METEOR	8.75	—	Unverified
9	CM²	METEOR	8.55	—	Unverified
10	BMT	METEOR	8.44	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HiCM²	CIDEr	71.84	—	Unverified
2	Vid2Seq (HowTo100M+VidChapters-7M PT)	CIDEr	67.2	—	Unverified
3	Vid2Seq	CIDEr	47.1	—	Unverified
4	E2vidD6-MASSalign-BiD	ROUGE-L	39.03	—	Unverified
5	CM²	CIDEr	31.66	—	Unverified
6	GVL	CIDEr	26.52	—	Unverified
7	PDVC (TSN features, no SCST)	CIDEr	22.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	E2ESG	CIDEr	25	—	Unverified
2	Vid2Seq (VidChapters-7M PT)	SODA	0.15	—	Unverified
3	HiCM²	SODA	0.15	—	Unverified
4	Vid2Seq	SODA	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vid2Seq	CIDEr	55.7	—	Unverified