Video Summarization

Video Summarization aims to generate a short synopsis that summarizes the video content by selecting its most informative and important parts. The produced summary is usually composed of a set of representative video frames (a.k.a. video key-frames), or video fragments (a.k.a. video key-fragments) that have been stitched in chronological order to form a shorter video. The former type of a video summary is known as video storyboard, and the latter type is known as video skim.

Source: Video Summarization Using Deep Neural Networks: A Survey Image credit: iJRASET

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 280 papers

Title	Date	Tasks	Status
SD-VSum: A Method and Dataset for Script-Driven Video Summarization	May 6, 2025	Video Summarization	CodeCode Available
Video Summarization with Large Language Models	Apr 15, 2025	Large Language ModelVideo Summarization	—Unverified
Automatic Detection of Intro and Credits in Video using CLIP and Multihead Attention	Apr 13, 2025	CPUHighlight Detection	—Unverified
FaVChat: Unlocking Fine-Grained Facail Video Understanding with Multimodal Large Language Models	Mar 12, 2025	Mixture-of-ExpertsQuestion Answering	—Unverified
A Novel Trustworthy Video Summarization Algorithm Through a Mixture of LoRA Experts	Mar 8, 2025	Mixture-of-ExpertsVideo Summarization	—Unverified
Parameter-free Video Segmentation for Vision and Language Understanding	Mar 3, 2025	Question AnsweringVideo Question Answering	—Unverified
CFSum: A Transformer-Based Multi-Modal Video Summarization Framework With Coarse-Fine Fusion	Mar 1, 2025	Video Summarization	—Unverified
Integrate the temporal scheme for unsupervised video summarization via attention mechanism	Feb 26, 2025	Unsupervised Video SummarizationVideo Summarization	CodeCode Available
Reinforcement Learning for Ultrasound Image Analysis A Comprehensive Review of Advances and Applications	Feb 20, 2025	Decision MakingDeep Reinforcement Learning	—Unverified
What Is That Talk About? A Video-to-Text Summarization Dataset for Scientific Presentations	Feb 12, 2025	Text SummarizationVideo Summarization	CodeCode Available
FullTransNet: Full Transformer with Local-Global Attention for Video Summarization	Jan 1, 2025	DecoderSupervised Video Summarization	—Unverified
Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning	Dec 18, 2024	Moment RetrievalMulti-Task Learning	—Unverified
Agent-based Video Trimming	Dec 12, 2024	Highlight DetectionMoment Retrieval	—Unverified
Video Summarization using Denoising Diffusion Probabilistic Model	Dec 11, 2024	Denoisingmodel	—Unverified
Personalized Video Summarization by Multimodal Video Understanding	Nov 5, 2024	Unsupervised Video SummarizationVideo Summarization	—Unverified
Your Interest, Your Summaries: Query-Focused Long Video Summarization	Oct 17, 2024	Query focused video summarizationVideo Summarization	CodeCode Available
Exploring Efficient Foundational Multi-modal Models for Video Summarization	Oct 9, 2024	Language ModelingLanguage Modelling	—Unverified
Realizing Video Summarization from the Path of Language-based Semantic Understanding	Oct 6, 2024	Mixture-of-ExpertsVideo Generation	—Unverified
Video Summarization Techniques: A Comprehensive Review	Oct 6, 2024	Abstractive Text SummarizationExtractive Summarization	—Unverified
Does SpatioTemporal information benefit Two video summarization benchmarks?	Oct 4, 2024	Activity RecognitionVideo Summarization	CodeCode Available
EDSNet: Efficient-DSNet for Video Summarization	Sep 23, 2024	Video Summarization	—Unverified
Personalized Video Summarization using Text-Based Queries and Conditional Modeling	Aug 27, 2024	Video SummarizationWord Embeddings	—Unverified
EgoSonics: Generating Synchronized Audio for Silent Egocentric Videos	Jul 30, 2024	Audio SynthesisVideo Summarization	—Unverified
Multimodal Language Models for Domain-Specific Procedural Video Summarization	Jul 7, 2024	Video Summarization	—Unverified
Unsupervised Video Summarization via Reinforcement Learning and a Trained Evaluator	Jul 5, 2024	reinforcement-learningReinforcement Learning	—Unverified
UBiSS: A Unified Framework for Bimodal Semantic Summarization of Videos	Jun 24, 2024	TripletVideo Summarization	CodeCode Available
A Human-Annotated Video Dataset for Training and Evaluation of 360-Degree Video Summarization Methods	Jun 5, 2024	Video Summarization	CodeCode Available
CSTA: CNN-based Spatiotemporal Attention for Video Summarization	May 20, 2024	Supervised Video SummarizationVideo Summarization	—Unverified
"Previously on ..." From Recaps to Story Summarization	May 19, 2024	Video Summarization	—Unverified
An Integrated Framework for Multi-Granular Explanation of Video Summarization	May 16, 2024	BenchmarkingPanoptic Segmentation	CodeCode Available
Language-Guided Self-Supervised Video Summarization Using Text Semantic Matching Considering the Diversity of the Video	May 14, 2024	DiversitySupervised Video Summarization	—Unverified
Pegasus-v1 Technical Report	Apr 23, 2024	Language ModelingLanguage Modelling	—Unverified
V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning	Apr 18, 2024	Text SummarizationVideo Summarization	—Unverified
Cluster-based Video Summarization with Temporal Context Awareness	Apr 6, 2024	ClusteringUnsupervised Video Summarization	CodeCode Available
Enhancing Video Summarization with Context Awareness	Apr 6, 2024	BenchmarkingInformativeness	CodeCode Available
Scaling Up Video Summarization Pretraining with Large Language Models	Apr 4, 2024	Video AlignmentVideo Summarization	—Unverified
R^2-Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding	Apr 2, 2024	Highlight DetectionMoment Retrieval	—Unverified
R^2-Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding	Mar 31, 2024	Highlight DetectionMoment Retrieval	—Unverified
FastPerson: Enhancing Video Learning through Effective Video Summarization that Preserves Linguistic and Visual Contexts	Mar 26, 2024	Video Summarization	—Unverified
Large Model based Sequential Keyframe Extraction for Video Summarization	Jan 10, 2024	Video Summarization	—Unverified
Previously on ... From Recaps to Story Summarization	Jan 1, 2024	Video Summarization	—Unverified
Beyond the Frame: Single and mutilple video summarization method with user-defined length	Dec 23, 2023	Video Summarization	—Unverified
An Integrated System for Spatio-Temporal Summarization of 360-degrees Videos	Dec 5, 2023	Saliency DetectionVideo Saliency Detection	CodeCode Available
Facilitating the Production of Well-tailored Video Summaries for Sharing on Social Media	Dec 5, 2023	Video Summarization	—Unverified
A Challenging Multimodal Video Summary: Simultaneously Extracting and Generating Keyframe-Caption Pairs from Video	Dec 4, 2023	Video Summarization	CodeCode Available
Video Summarization: Towards Entity-Aware Captions	Dec 1, 2023	Image CaptioningVideo Captioning	CodeCode Available
Scene Summarization: Clustering Scene Videos into Spatially Diverse Frames	Nov 28, 2023	ClusteringDiversity	—Unverified
Conditional Modeling Based Automatic Video Summarization	Nov 20, 2023	Video Summarization	—Unverified
Unsupervised Video Summarization via Iterative Training and Simplified GAN	Nov 7, 2023	Model SelectionUnsupervised Video Summarization	CodeCode Available
Dynamic Non-monotone Submodular Maximization	Nov 7, 2023	Data Summarizationfeature selection	—Unverified

Show:10 25 50

← PrevPage 2 of 6Next →

All datasets SumMe TvSum Shot2Story20K Query-Focused Video Summarization Dataset Mr. HiSum VideoXum

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PGL-SUM	F1-score (Canonical)	55.6	—	Unverified
2	RR-STG	F1-score (Canonical)	54.5	—	Unverified
3	DSNet	F1-score (Canonical)	53	—	Unverified
4	VASNet	F1-score (Canonical)	49.71	—	Unverified
5	M-AVS	F1-score (Canonical)	44.4	—	Unverified
6	CSTA	Kendall's Tau	0.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RR-STG	F1-score (Canonical)	63	—	Unverified
2	DSNet	F1-score (Canonical)	62.1	—	Unverified
3	VASNet	F1-score (Canonical)	61.42	—	Unverified
4	PGL-SUM	F1-score (Canonical)	61	—	Unverified
5	M-AVS	F1-score (Canonical)	61	—	Unverified
6	CSTA	Kendall's Tau	0.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Shotluck-Holmes (3.1B)	CIDEr	152.3	—	Unverified
2	Shotluck-Holmes (3.1B)	CIDEr	63.2	—	Unverified
3	SUM-shot	CIDEr	8.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EgoVLPv2	F1 (avg)	52.08	—	Unverified
2	EgoVLP	F1 (avg)	49.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PGL-SUM	MAP (50%)	61.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VTSUM-BLIP	1 shot Micro-F1	23.5	—	Unverified