Dense Video Captioning

Most natural videos contain numerous events. For example, in a video of a “man playing a piano”, the video might also contain “another man dancing” or “a crowd clapping”. The task of dense video captioning involves both detecting and describing events in a video.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 76 papers

Title	Date	Tasks	Status	Hype
DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement	Apr 3, 2024	Dense Video CaptioningDiversity	—Unverified	0
Streaming Dense Video Captioning	Apr 1, 2024	Dense Video CaptioningLive Video Captioning	—Unverified	0
OmniVid: A Generative Framework for Universal Video Understanding	Mar 26, 2024	Action RecognitionDecoder	CodeCode Available	2
Empowering LLMs with Pseudo-Untrimmed Videos for Audio-Visual Temporal Understanding	Mar 24, 2024	Dense Video CaptioningTemporal Localization	—Unverified	0
VTimeLLM: Empower LLM to Grasp Video Moments	Nov 30, 2023	Dense Video CaptioningTemporal Relation Extraction	CodeCode Available	2
Exo2EgoDVC: Dense Video Captioning of Egocentric Procedural Activities Using Web Instructional Videos	Nov 28, 2023	Dense Video CaptioningTransfer Learning	—Unverified	0
Dense Video Captioning: A Survey of Techniques, Datasets and Evaluation Protocols	Nov 5, 2023	Caption GenerationDense Video Captioning	—Unverified	0
VidChapters-7M: Video Chapters at Scale	Sep 25, 2023	Dense Video CaptioningNavigate	CodeCode Available	2
Towards Surveillance Video-and-Language Understanding: New Dataset, Baselines, and Challenges	Sep 25, 2023	Anomaly DetectionDense Video Captioning	—Unverified	0
SoccerNet 2023 Challenges Results	Sep 12, 2023	Action SpottingCamera Calibration	CodeCode Available	1
Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment	Jul 5, 2023	Dense Video CaptioningLanguage Modelling	—Unverified	0
Visual Transformation Telling	May 3, 2023	Dense Video CaptioningVideo Captioning	CodeCode Available	0
A Review of Deep Learning for Video Captioning	Apr 22, 2023	Deep LearningDense Video Captioning	—Unverified	0
SoccerNet-Caption: Dense Video Captioning for Soccer Broadcasts Commentaries	Apr 10, 2023	Dense Video CaptioningVideo Captioning	CodeCode Available	2
Learning Grounded Vision-Language Representation for Versatile Understanding in Untrimmed Videos	Mar 11, 2023	Dense Video CaptioningNatural Language Moment Retrieval	CodeCode Available	1
Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning	Feb 27, 2023	Dense Video CaptioningLanguage Modeling	CodeCode Available	2
Exploiting Auxiliary Caption for Video Grounding	Jan 15, 2023	Contrastive LearningDense Video Captioning	—Unverified	0
Event and Entity Extraction from Generated Video Captions	Nov 5, 2022	Caption GenerationDense Video Captioning	CodeCode Available	0
A Closer Look at Temporal Ordering in the Segmentation of Instructional Videos	Sep 30, 2022	Dense Video CaptioningSegmentation	—Unverified	0
Recipe Generation from Unsegmented Cooking Videos	Sep 21, 2022	Dense Video CaptioningRecipe Generation	—Unverified	0
SAVCHOI: Detecting Suspicious Activities using Dense Video Captioning with Human Object Interactions	Jul 24, 2022	Dense CaptioningDense Video Captioning	—Unverified	0
Unifying Event Detection and Captioning as Sequence Generation via Pre-Training	Jul 18, 2022	Dense Video CaptioningEvent Detection	CodeCode Available	1
PIC 4th Challenge: Semantic-Assisted Multi-Feature Encoding and Multi-Head Decoding for Dense Video Captioning	Jul 6, 2022	Dense Video CaptioningVideo Captioning	—Unverified	0
End-to-end Dense Video Captioning as Sequence Generation	Apr 18, 2022	Dense Video CaptioningDescriptive	—Unverified	0
Semantic-Aware Pretraining for Dense Video Captioning	Apr 13, 2022	Dense CaptioningDense Video Captioning	—Unverified	0

Show:10 25 50

← PrevPage 2 of 4Next →

All datasets ActivityNet Captions YouCook2 ViTT VidChapters-7M

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VTimeLLM	CIDEr	27.6	—	Unverified
2	Vid2Seq	METEOR	17	—	Unverified
3	ADV-INF + Global	METEOR	16.36	—	Unverified
4	Bi-directional+intra captioning	METEOR	11.28	—	Unverified
5	GVL	METEOR	10.03	—	Unverified
6	TSRM-CMG-HRNN+SCST	METEOR	9.71	—	Unverified
7	PDVC (TSP features, no SCST)	METEOR	9.03	—	Unverified
8	TSP	METEOR	8.75	—	Unverified
9	CM²	METEOR	8.55	—	Unverified
10	BMT	METEOR	8.44	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HiCM²	CIDEr	71.84	—	Unverified
2	Vid2Seq (HowTo100M+VidChapters-7M PT)	CIDEr	67.2	—	Unverified
3	Vid2Seq	CIDEr	47.1	—	Unverified
4	E2vidD6-MASSalign-BiD	ROUGE-L	39.03	—	Unverified
5	CM²	CIDEr	31.66	—	Unverified
6	GVL	CIDEr	26.52	—	Unverified
7	PDVC (TSN features, no SCST)	CIDEr	22.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	E2ESG	CIDEr	25	—	Unverified
2	Vid2Seq (VidChapters-7M PT)	SODA	0.15	—	Unverified
3	HiCM²	SODA	0.15	—	Unverified
4	Vid2Seq	SODA	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vid2Seq	CIDEr	55.7	—	Unverified