Video Summarization

Video Summarization aims to generate a short synopsis that summarizes the video content by selecting its most informative and important parts. The produced summary is usually composed of a set of representative video frames (a.k.a. video key-frames), or video fragments (a.k.a. video key-fragments) that have been stitched in chronological order to form a shorter video. The former type of a video summary is known as video storyboard, and the latter type is known as video skim.

Source: Video Summarization Using Deep Neural Networks: A Survey Image credit: iJRASET

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 280 papers

Title	Date	Tasks	Status
CSTA: CNN-based Spatiotemporal Attention for Video Summarization	May 20, 2024	Supervised Video SummarizationVideo Summarization	—Unverified
Creating Summaries from User Videos	Jan 1, 2014	Video Summarization	—Unverified
A Paradigm for Building Generalized Models of Human Image Perception Through Data Fusion	Jun 1, 2016	ImputationVideo Summarization	—Unverified
Co-Regularized Deep Representations for Video Summarization	Jan 30, 2015	InformativenessVideo Summarization	—Unverified
A Memory Network Approach for Story-based Temporal Summarization of 360° Videos	May 8, 2018	Video Summarization	—Unverified
DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video Summarization	May 13, 2021	DiversityVideo Summarization	—Unverified
A Survey on Patch-based Synthesis: GPU Implementation and Optimization	May 11, 2020	DenoisingGPU	—Unverified
Demystifying Multi-Faceted Video Summarization: Tradeoff Between Diversity,Representation, Coverage and Importance	Jan 3, 2019	DiversityVideo Summarization	—Unverified
A Novel Trustworthy Video Summarization Algorithm Through a Mixture of LoRA Experts	Mar 8, 2025	Mixture-of-ExpertsVideo Summarization	—Unverified
Discovery of Shared Semantic Spaces for Multi-Scene Video Query and Summarization	Jul 27, 2015	Scene UnderstandingSemantic Similarity	—Unverified
Attention is all you need for Videos: Self-attention based Video Summarization using Universal Transformers	Jun 6, 2019	AllDense Video Captioning	—Unverified
A Novel Approach for Robust Multi Human Action Recognition and Summarization based on 3D Convolutional Neural Networks	Jul 25, 2019	Action DetectionAction Recognition	—Unverified
Comprehensive Video Understanding: Video summarization with content-based video recommender design	Oct 30, 2019	Action RecognitionData Augmentation	—Unverified
FullTransNet: Full Transformer with Local-Global Attention for Video Summarization	Jan 1, 2025	DecoderSupervised Video Summarization	—Unverified
Compare and Select: Video Summarization with Multi-Agent Reinforcement Learning	Jul 29, 2020	Decision MakingMulti-agent Reinforcement Learning	—Unverified
Image Conditioned Keyframe-Based Video Summarization Using Object Detection	Sep 11, 2020	Objectobject-detection	—Unverified
Improving Sequential Determinantal Point Processes for Supervised Video Summarization	Jul 28, 2018	DiversityPoint Processes	—Unverified
Joint Video Summarization and Moment Localization by Cross-Task Sample Transfer	Jan 1, 2022	Supervised Video SummarizationVideo Summarization	—Unverified
Common Action Discovery and Localization in Unconstrained Videos	Oct 1, 2017	Object DiscoveryVideo Summarization	—Unverified
Submodular Maximization in Clean Linear Time	Jun 16, 2020	Movie RecommendationText Summarization	—Unverified
How Good is a Video Summary? A New Benchmarking Dataset and Evaluation Framework Towards Realistic Video Summarization	Jan 26, 2021	BenchmarkingSupervised Video Summarization	—Unverified
CNN-Based Prediction of Frame-Level Shot Importance for Video Summarization	Aug 23, 2017	Video Summarization	—Unverified
A Graph-based Ranking Approach to Extract Key-frames for Static Video Summarization	Nov 29, 2019	Video Summarization	—Unverified
Highlight Detection With Pairwise Deep Ranking for First-Person Video Summarization	Jun 1, 2016	Highlight DetectionVideo Summarization	—Unverified
How Local is the Local Diversity? Reinforcing Sequential Determinantal Point Processes with Dynamic Ground Sets for Supervised Video Summarization	Jul 11, 2018	DiversityPoint Processes	—Unverified
CFSum: A Transformer-Based Multi-Modal Video Summarization Framework With Coarse-Fine Fusion	Mar 1, 2025	Video Summarization	—Unverified
A Dataset and Preliminary Results for Umpire Pose Detection Using SVM Classification of Deep Features	Sep 11, 2018	Game of CricketVideo Summarization	—Unverified
Hierarchical Recurrent Neural Network for Video Summarization	Apr 28, 2019	Video CaptioningVideo Summarization	—Unverified
Causal Video Summarizer for Video Exploration	Jul 4, 2023	DecoderVideo Summarization	—Unverified
Enhancing Video Summarization via Vision-Language Embedding	Jul 1, 2017	Video Summarization	—Unverified
Causalainer: Causal Explainer for Automatic Video Summarization	Apr 30, 2023	Video Summarization	—Unverified
Enhancing Video Memorability Prediction with Text-Motion Cross-modal Contrastive Loss and Its Application in Video Summarization	Jun 10, 2025	PredictionVideo Summarization	—Unverified
ElasticPlay: Interactive Video Summarization with Dynamic Time Budgets	Aug 23, 2017	Video SummarizationVideo Understanding	—Unverified
A Novel Technique for Evidence based Conditional Inference in Deep Neural Networks via Latent Feature Perturbation	Nov 24, 2018	Image CaptioningInstance Segmentation	—Unverified
Exploring Efficient Foundational Multi-modal Models for Video Summarization	Oct 9, 2024	Language ModelingLanguage Modelling	—Unverified
Exploring global diverse attention via pairwise temporal relation for video summarization	Sep 23, 2020	DecoderRelation	—Unverified
Exploring Global Diversity and Local Context for Video Summarization	Jan 27, 2022	DiversityVideo Summarization	—Unverified
Facilitating the Production of Well-tailored Video Summaries for Sharing on Social Media	Dec 5, 2023	Video Summarization	—Unverified
Fast Graph Sampling for Short Video Summarization using Gershgorin Disc Alignment	Oct 21, 2021	Graph SamplingVideo Summarization	—Unverified
FastPerson: Enhancing Video Learning through Effective Video Summarization that Preserves Linguistic and Visual Contexts	Mar 26, 2024	Video Summarization	—Unverified
Hierarchical Multimodal Transformer to Summarize Videos	Sep 22, 2021	Machine TranslationSupervised Video Summarization	—Unverified
FaVChat: Unlocking Fine-Grained Facail Video Understanding with Multimodal Large Language Models	Mar 12, 2025	Mixture-of-ExpertsQuestion Answering	—Unverified
FrameRank: A Text Processing Approach to Video Summarization	Apr 11, 2019	Unsupervised Video SummarizationVideo Summarization	—Unverified
From Keyframes to Key Objects: Video Summarization by Representative Object Proposal Selection	Jun 1, 2016	ObjectVideo Summarization	—Unverified
HSA-RNN: Hierarchical Structure-Adaptive RNN for Video Summarization	Jun 1, 2018	SegmentationVideo Summarization	—Unverified
Gaze-Enabled Egocentric Video Summarization via Constrained Submodular Maximization	Jun 1, 2015	Combinatorial OptimizationCommon Sense Reasoning	—Unverified
Generating Natural Language Summaries for Multimedia	May 1, 2012	Text GenerationVideo Classification	—Unverified
Global-and-Local Relative Position Embedding for Unsupervised Video Summarization	Aug 1, 2020	Computational EfficiencyPosition	—Unverified
Conditional Modeling Based Automatic Video Summarization	Nov 20, 2023	Video Summarization	—Unverified
EgoSonics: Generating Synchronized Audio for Silent Egocentric Videos	Jul 30, 2024	Audio SynthesisVideo Summarization	—Unverified

Show:10 25 50

← PrevPage 2 of 6Next →

All datasets SumMe TvSum Shot2Story20K Query-Focused Video Summarization Dataset Mr. HiSum VideoXum

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PGL-SUM	F1-score (Canonical)	55.6	—	Unverified
2	RR-STG	F1-score (Canonical)	54.5	—	Unverified
3	DSNet	F1-score (Canonical)	53	—	Unverified
4	VASNet	F1-score (Canonical)	49.71	—	Unverified
5	M-AVS	F1-score (Canonical)	44.4	—	Unverified
6	CSTA	Kendall's Tau	0.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RR-STG	F1-score (Canonical)	63	—	Unverified
2	DSNet	F1-score (Canonical)	62.1	—	Unverified
3	VASNet	F1-score (Canonical)	61.42	—	Unverified
4	PGL-SUM	F1-score (Canonical)	61	—	Unverified
5	M-AVS	F1-score (Canonical)	61	—	Unverified
6	CSTA	Kendall's Tau	0.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Shotluck-Holmes (3.1B)	CIDEr	152.3	—	Unverified
2	Shotluck-Holmes (3.1B)	CIDEr	63.2	—	Unverified
3	SUM-shot	CIDEr	8.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EgoVLPv2	F1 (avg)	52.08	—	Unverified
2	EgoVLP	F1 (avg)	49.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PGL-SUM	MAP (50%)	61.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VTSUM-BLIP	1 shot Micro-F1	23.5	—	Unverified