Video Summarization

Video Summarization aims to generate a short synopsis that summarizes the video content by selecting its most informative and important parts. The produced summary is usually composed of a set of representative video frames (a.k.a. video key-frames), or video fragments (a.k.a. video key-fragments) that have been stitched in chronological order to form a shorter video. The former type of a video summary is known as video storyboard, and the latter type is known as video skim.

Source: Video Summarization Using Deep Neural Networks: A Survey Image credit: iJRASET

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 280 papers

Title	Date	Tasks	Status	Hype
Video Joint Modelling Based on Hierarchical Transformer for Co-summarization	Dec 27, 2021	RetrievalSupervised Video Summarization	CodeCode Available	1
Combining Global and Local Attention with Positional Encoding for Video Summarization	Dec 1, 2021	Supervised Video SummarizationVideo Summarization	CodeCode Available	1
IntentVizor: Towards Generic Query Guided Interactive Video Summarization	Sep 30, 2021	Video SummarizationVideo Understanding	CodeCode Available	1
Discriminative Latent Semantic Graph for Video Captioning	Aug 8, 2021	DecoderObject	CodeCode Available	1
Self-Attention Recurrent Summarization Network with Reinforcement Learning for Video Summarization Task	Jun 9, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	1
Multimodal Summarization of User-Generated Videos	Jun 5, 2021	Video Summarization	CodeCode Available	1
Unsupervised Video Summarization via Multi-source Features	May 26, 2021	Unsupervised Video SummarizationVideo Summarization	CodeCode Available	1
TRECVID 2020: A comprehensive campaign for evaluating video retrieval tasks across multiple application domains	Apr 27, 2021	Ad-hoc video searchInstance Search	CodeCode Available	1
Supervised Video Summarization via Multiple Feature Sets with Parallel Attention	Apr 23, 2021	Automated Feature Engineeringimage-classification	CodeCode Available	1
A Comprehensive Review of the Video-to-Text Problem	Mar 27, 2021	Question AnsweringRetrieval	CodeCode Available	1
Learning Discriminative Prototypes with Dynamic Time Warping	Mar 17, 2021	Action SegmentationDynamic Time Warping	CodeCode Available	1
Movie Summarization via Sparse Graph Construction	Dec 14, 2020	graph constructionTurning Point Identification	CodeCode Available	1
DSNet: A Flexible Detect-to-Summarize Network for Video Summarization	Dec 1, 2020	regressionSupervised Video Summarization	CodeCode Available	1
AC-SUM-GAN: Connecting Actor-Critic and Generative Adversarial Networks for Unsupervised Video Summarization	Nov 16, 2020	Generative Adversarial NetworkUnsupervised Video Summarization	CodeCode Available	1
Multi-modal Summarization for Video-containing Documents	Sep 17, 2020	Question AnsweringVideo Summarization	CodeCode Available	1
Ultrasound Video Summarization using Deep Reinforcement Learning	May 19, 2020	Deep Reinforcement LearningDiagnostic	CodeCode Available	1
Query-controllable Video Summarization	Apr 7, 2020	Video Summarization	CodeCode Available	1
Convolutional Hierarchical Attention Network for Query-Focused Video Summarization	Jan 31, 2020	Query focused video summarizationVideo Summarization	CodeCode Available	1
TRIM: A Self-Supervised Video Summarization Framework Maximizing Temporal Relative Information and Representativeness	Jun 25, 2025	Self-Supervised LearningSupervised Video Summarization	—Unverified	0
MF2Summ: Multimodal Fusion for Video Summarization with Temporal Alignment	Jun 12, 2025	Video Summarization	—Unverified	0
Prompts to Summaries: Zero-Shot Language-Guided Video Summarization	Jun 12, 2025	GPUQuery focused video summarization	—Unverified	0
Enhancing Video Memorability Prediction with Text-Motion Cross-modal Contrastive Loss and Its Application in Video Summarization	Jun 10, 2025	PredictionVideo Summarization	—Unverified	0
TriPSS: A Tri-Modal Keyframe Extraction Framework Using Perceptual, Structural, and Semantic Representations	Jun 3, 2025	RetrievalVideo Summarization	—Unverified	0
Unsupervised Transcript-assisted Video Summarization and Highlight Detection	May 29, 2025	Highlight DetectionReinforcement Learning (RL)	—Unverified	0
REGen: Multimodal Retrieval-Embedded Generation for Long-to-Short Video Editing	May 24, 2025	Language ModelingLanguage Modelling	—Unverified	0

Show:10 25 50

← PrevPage 2 of 12Next →

All datasets SumMe TvSum Shot2Story20K Query-Focused Video Summarization Dataset Mr. HiSum VideoXum

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PGL-SUM	F1-score (Canonical)	55.6	—	Unverified
2	RR-STG	F1-score (Canonical)	54.5	—	Unverified
3	DSNet	F1-score (Canonical)	53	—	Unverified
4	VASNet	F1-score (Canonical)	49.71	—	Unverified
5	M-AVS	F1-score (Canonical)	44.4	—	Unverified
6	CSTA	Kendall's Tau	0.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RR-STG	F1-score (Canonical)	63	—	Unverified
2	DSNet	F1-score (Canonical)	62.1	—	Unverified
3	VASNet	F1-score (Canonical)	61.42	—	Unverified
4	PGL-SUM	F1-score (Canonical)	61	—	Unverified
5	M-AVS	F1-score (Canonical)	61	—	Unverified
6	CSTA	Kendall's Tau	0.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Shotluck-Holmes (3.1B)	CIDEr	152.3	—	Unverified
2	Shotluck-Holmes (3.1B)	CIDEr	63.2	—	Unverified
3	SUM-shot	CIDEr	8.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EgoVLPv2	F1 (avg)	52.08	—	Unverified
2	EgoVLP	F1 (avg)	49.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PGL-SUM	MAP (50%)	61.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VTSUM-BLIP	1 shot Micro-F1	23.5	—	Unverified