Dense Video Captioning

Most natural videos contain numerous events. For example, in a video of a “man playing a piano”, the video might also contain “another man dancing” or “a crowd clapping”. The task of dense video captioning involves both detecting and describing events in a video.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–76 of 76 papers

Title	Date	Tasks	Status
Event and Entity Extraction from Generated Video Captions	Nov 5, 2022	Caption GenerationDense Video Captioning	CodeCode Available
A Closer Look at Temporal Ordering in the Segmentation of Instructional Videos	Sep 30, 2022	Dense Video CaptioningSegmentation	—Unverified
Recipe Generation from Unsegmented Cooking Videos	Sep 21, 2022	Dense Video CaptioningRecipe Generation	—Unverified
SAVCHOI: Detecting Suspicious Activities using Dense Video Captioning with Human Object Interactions	Jul 24, 2022	Dense CaptioningDense Video Captioning	—Unverified
PIC 4th Challenge: Semantic-Assisted Multi-Feature Encoding and Multi-Head Decoding for Dense Video Captioning	Jul 6, 2022	Dense Video CaptioningVideo Captioning	—Unverified
End-to-end Dense Video Captioning as Sequence Generation	Apr 18, 2022	Dense Video CaptioningDescriptive	—Unverified
Semantic-Aware Pretraining for Dense Video Captioning	Apr 13, 2022	Dense CaptioningDense Video Captioning	—Unverified
End-to-end Dense Video Captioning as Sequence Generation	Jan 16, 2022	Dense Video CaptioningDescriptive	—Unverified
Dense Video Captioning Using Unsupervised Semantic Information	Dec 15, 2021	Dense Video CaptioningVideo Captioning	CodeCode Available
DVCFlow: Modeling Information Flow Towards Human-like Video Captioning	Nov 19, 2021	Dense Video CaptioningDiversity	—Unverified
Global Object Proposals for Improving Multi-Sentence Video Descriptions	Jul 18, 2021	Caption GenerationDense Video Captioning	CodeCode Available
Sketch, Ground, and Refine: Top-Down Dense Video Captioning	Jun 19, 2021	Dense Video CaptioningSentence	CodeCode Available
Weakly Supervised Dense Video Captioning via Jointly Usage of Knowledge Distillation and Cross-modal Matching	May 18, 2021	Caption GenerationCross-Modal Retrieval	—Unverified
iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video Captioning and Video Question Answering	Nov 16, 2020	Common Sense ReasoningDense Video Captioning	—Unverified
SACT: Self-Aware Multi-Space Feature Composition Transformer for Multinomial Attention for Video Captioning	Jun 25, 2020	Dense Video CaptioningVideo Captioning	—Unverified
Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring Sequential Events Detection for Dense Video Captioning	Jun 14, 2020	Dense CaptioningDense Video Captioning	—Unverified
Activitynet 2019 Task 3: Exploring Contexts for Dense Captioning Events in Videos	Jul 11, 2019	Dense CaptioningDense Video Captioning	—Unverified
Attention is all you need for Videos: Self-attention based Video Summarization using Universal Transformers	Jun 6, 2019	AllDense Video Captioning	—Unverified
Streamlined Dense Video Captioning	Apr 8, 2019	Dense Video CaptioningReinforcement Learning	CodeCode Available
RUC+CMU: System Report for Dense Captioning Events in Videos	Jun 22, 2018	Caption GenerationDense Captioning	—Unverified
Jointly Localizing and Describing Events for Dense Video Captioning	Apr 23, 2018	AttributeDense Video Captioning	—Unverified
End-to-End Dense Video Captioning with Masked Transformer	Apr 3, 2018	DecoderDense Video Captioning	CodeCode Available
Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning	Mar 31, 2018	DecoderDense Video Captioning	CodeCode Available
Joint Event Detection and Description in Continuous Video Streams	Feb 28, 2018	Dense CaptioningDense Video Captioning	CodeCode Available
Weakly Supervised Dense Video Captioning	Apr 5, 2017	Dense Video CaptioningLanguage Modeling	—Unverified
Towards Automatic Learning of Procedures from Web Instructional Videos	Mar 28, 2017	Dense Video CaptioningProcedure Learning	CodeCode Available

Show:10 25 50

← PrevPage 2 of 2Next →

All datasets ActivityNet Captions YouCook2 ViTT VidChapters-7M

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VTimeLLM	CIDEr	27.6	—	Unverified
2	Vid2Seq	METEOR	17	—	Unverified
3	ADV-INF + Global	METEOR	16.36	—	Unverified
4	Bi-directional+intra captioning	METEOR	11.28	—	Unverified
5	GVL	METEOR	10.03	—	Unverified
6	TSRM-CMG-HRNN+SCST	METEOR	9.71	—	Unverified
7	PDVC (TSP features, no SCST)	METEOR	9.03	—	Unverified
8	TSP	METEOR	8.75	—	Unverified
9	CM²	METEOR	8.55	—	Unverified
10	BMT	METEOR	8.44	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HiCM²	CIDEr	71.84	—	Unverified
2	Vid2Seq (HowTo100M+VidChapters-7M PT)	CIDEr	67.2	—	Unverified
3	Vid2Seq	CIDEr	47.1	—	Unverified
4	E2vidD6-MASSalign-BiD	ROUGE-L	39.03	—	Unverified
5	CM²	CIDEr	31.66	—	Unverified
6	GVL	CIDEr	26.52	—	Unverified
7	PDVC (TSN features, no SCST)	CIDEr	22.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	E2ESG	CIDEr	25	—	Unverified
2	Vid2Seq (VidChapters-7M PT)	SODA	0.15	—	Unverified
3	HiCM²	SODA	0.15	—	Unverified
4	Vid2Seq	SODA	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vid2Seq	CIDEr	55.7	—	Unverified