Video Summarization

Video Summarization aims to generate a short synopsis that summarizes the video content by selecting its most informative and important parts. The produced summary is usually composed of a set of representative video frames (a.k.a. video key-frames), or video fragments (a.k.a. video key-fragments) that have been stitched in chronological order to form a shorter video. The former type of a video summary is known as video storyboard, and the latter type is known as video skim.

Source: Video Summarization Using Deep Neural Networks: A Survey Image credit: iJRASET

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 280 papers

Title	Date	Tasks	Status	Hype	Score
Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding	Sep 22, 2024	Anomaly DetectionGPU	CodeCode Available	4	5
VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding	May 22, 2024	Dense Video CaptioningHighlight Detection	CodeCode Available	2	5
VideoSAGE: Video Summarization with Graph Representation Learning	Apr 14, 2024	Graph Representation LearningNode Classification	CodeCode Available	2	5
Egocentric Video-Language Pretraining	Jun 3, 2022	Action RecognitionContrastive Learning	CodeCode Available	2	5
ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video	Jan 10, 2024	Video Summarization	CodeCode Available	2	5
UniVTG: Towards Unified Video-Language Temporal Grounding	Jul 31, 2023	Highlight DetectionMoment Retrieval	CodeCode Available	2	5
An Egocentric Vision-Language Model based Portable Real-time Smart Assistant	Mar 6, 2025	Language ModelingLanguage Modelling	CodeCode Available	2	5
Combining Global and Local Attention with Positional Encoding for Video Summarization	Dec 1, 2021	Supervised Video SummarizationVideo Summarization	CodeCode Available	1	5
Movie Summarization via Sparse Graph Construction	Dec 14, 2020	graph constructionTurning Point Identification	CodeCode Available	1	5
Video Joint Modelling Based on Hierarchical Transformer for Co-summarization	Dec 27, 2021	RetrievalSupervised Video Summarization	CodeCode Available	1	5
Learning Discriminative Prototypes with Dynamic Time Warping	Mar 17, 2021	Action SegmentationDynamic Time Warping	CodeCode Available	1	5
Multimodal Summarization of User-Generated Videos	Jun 5, 2021	Video Summarization	CodeCode Available	1	5
Joint Moment Retrieval and Highlight Detection Via Natural Language Queries	May 8, 2023	DecoderHighlight Detection	CodeCode Available	1	5
Query-controllable Video Summarization	Apr 7, 2020	Video Summarization	CodeCode Available	1	5
Progressive Video Summarization via Multimodal Self-supervised Learning	Jan 7, 2022	Self-Supervised LearningSupervised Video Summarization	CodeCode Available	1	5
TRECVID 2020: A comprehensive campaign for evaluating video retrieval tasks across multiple application domains	Apr 27, 2021	Ad-hoc video searchInstance Search	CodeCode Available	1	5
Unsupervised Video Summarization via Multi-source Features	May 26, 2021	Unsupervised Video SummarizationVideo Summarization	CodeCode Available	1	5
DSNet: A Flexible Detect-to-Summarize Network for Video Summarization	Dec 1, 2020	regressionSupervised Video Summarization	CodeCode Available	1	5
IntentVizor: Towards Generic Query Guided Interactive Video Summarization	Sep 30, 2021	Video SummarizationVideo Understanding	CodeCode Available	1	5
Adopting Self-Supervised Learning into Unsupervised Video Summarization through Restorative Score	Sep 11, 2023	Self-Supervised LearningUnsupervised Video Summarization	CodeCode Available	1	5
Video Repurposing from User Generated Content: A Large-scale Dataset and Benchmark	Dec 12, 2024	Highlight DetectionVideo Summarization	CodeCode Available	1	5
VideoSum: A Python Library for Surgical Video Summarization	Feb 15, 2023	Video Summarization	CodeCode Available	1	5
Align and Attend: Multimodal Summarization with Dual Contrastive Losses	Mar 13, 2023	Extractive Text SummarizationSupervised Video Summarization	CodeCode Available	1	5
MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for Video Summarization	Apr 18, 2022	Video Summarization	CodeCode Available	1	5
Adopting Self-Supervised Learning into Unsupervised Video Summarization through Restorative Score.	Sep 11, 2023	Self-Supervised LearningUnsupervised Video Summarization	CodeCode Available	1	5
Multi-modal Summarization for Video-containing Documents	Sep 17, 2020	Question AnsweringVideo Summarization	CodeCode Available	1	5
MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos	Jun 7, 2023	Text SummarizationVideo Summarization	CodeCode Available	1	5
LTC-SUM: Lightweight Client-driven Personalized Video Summarization Framework Using 2D CNN	Jan 22, 2022	Video Summarization	CodeCode Available	1	5
Shotluck Holmes: A Family of Efficient Small-Scale Large Language Vision Models For Video Captioning and Summarization	May 31, 2024	SentenceVideo Captioning	CodeCode Available	1	5
Summarizing Videos using Concentrated Attention and Considering the Uniqueness and Diversity of the Video Frames	Jun 29, 2022	BenchmarkingDiversity	CodeCode Available	1	5
Discriminative Latent Semantic Graph for Video Captioning	Aug 8, 2021	DecoderObject	CodeCode Available	1	5
Self-Attention Recurrent Summarization Network with Reinforcement Learning for Video Summarization Task	Jun 9, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	1	5
Contrastive Losses Are Natural Criteria for Unsupervised Video Summarization	Nov 18, 2022	Diversityimage-classification	CodeCode Available	1	5
AC-SUM-GAN: Connecting Actor-Critic and Generative Adversarial Networks for Unsupervised Video Summarization	Nov 16, 2020	Generative Adversarial NetworkUnsupervised Video Summarization	CodeCode Available	1	5
Do Language Models Understand Time?	Dec 18, 2024	Action RecognitionAnomaly Detection	CodeCode Available	1	5
EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone	Jul 11, 2023	Action RecognitionMoment Queries	CodeCode Available	1	5
Convolutional Hierarchical Attention Network for Query-Focused Video Summarization	Jan 31, 2020	Query focused video summarizationVideo Summarization	CodeCode Available	1	5
A Comprehensive Review of the Video-to-Text Problem	Mar 27, 2021	Question AnsweringRetrieval	CodeCode Available	1	5
Shot2Story20K: A New Benchmark for Comprehensive Understanding of Multi-shot Videos	Dec 16, 2023	Video Captioningvideo narration captioning	CodeCode Available	1	5
Supervised Video Summarization via Multiple Feature Sets with Parallel Attention	Apr 23, 2021	Automated Feature Engineeringimage-classification	CodeCode Available	1	5
VideoXum: Cross-modal Visual and Textural Summarization of Videos	Mar 21, 2023	Text SummarizationVideo Summarization	CodeCode Available	1	5
Ultrasound Video Summarization using Deep Reinforcement Learning	May 19, 2020	Deep Reinforcement LearningDiagnostic	CodeCode Available	1	5
Hierarchical Video-Moment Retrieval and Step-Captioning	Mar 29, 2023	Information RetrievalMoment Retrieval	CodeCode Available	1	5
Query-adaptive Video Summarization via Quality-aware Relevance Estimation	May 1, 2017	DiversityVideo Summarization	CodeCode Available	0	5
Multi-Stream Dynamic Video Summarization	Dec 1, 2018	Video Summarization	CodeCode Available	0	5
Adaptive frame selection in two dimensional convolutional neural network action recognition	Dec 28, 2022	Action RecognitionVideo Summarization	CodeCode Available	0	5
A Stepwise, Label-based Approach for Improving the Adversarial Training in Unsupervised Video Summarization	Oct 21, 2019	BenchmarkingUnsupervised Video Summarization	CodeCode Available	0	5
Rethinking the Evaluation of Video Summaries	Mar 27, 2019	Video SegmentationVideo Semantic Segmentation	CodeCode Available	0	5
APES: Audiovisual Person Search in Untrimmed Video	Jun 3, 2021	Person RetrievalPerson Search	CodeCode Available	0	5
SD-VSum: A Method and Dataset for Script-Driven Video Summarization	May 6, 2025	Video Summarization	CodeCode Available	0	5

Show:10 25 50

← PrevPage 1 of 6Next →

All datasets SumMe TvSum Shot2Story20K Query-Focused Video Summarization Dataset Mr. HiSum VideoXum

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PGL-SUM	F1-score (Canonical)	55.6	—	Unverified
2	RR-STG	F1-score (Canonical)	54.5	—	Unverified
3	DSNet	F1-score (Canonical)	53	—	Unverified
4	VASNet	F1-score (Canonical)	49.71	—	Unverified
5	M-AVS	F1-score (Canonical)	44.4	—	Unverified
6	CSTA	Kendall's Tau	0.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RR-STG	F1-score (Canonical)	63	—	Unverified
2	DSNet	F1-score (Canonical)	62.1	—	Unverified
3	VASNet	F1-score (Canonical)	61.42	—	Unverified
4	PGL-SUM	F1-score (Canonical)	61	—	Unverified
5	M-AVS	F1-score (Canonical)	61	—	Unverified
6	CSTA	Kendall's Tau	0.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Shotluck-Holmes (3.1B)	CIDEr	152.3	—	Unverified
2	Shotluck-Holmes (3.1B)	CIDEr	63.2	—	Unverified
3	SUM-shot	CIDEr	8.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EgoVLPv2	F1 (avg)	52.08	—	Unverified
2	EgoVLP	F1 (avg)	49.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PGL-SUM	MAP (50%)	61.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VTSUM-BLIP	1 shot Micro-F1	23.5	—	Unverified