Video Summarization

Video Summarization aims to generate a short synopsis that summarizes the video content by selecting its most informative and important parts. The produced summary is usually composed of a set of representative video frames (a.k.a. video key-frames), or video fragments (a.k.a. video key-fragments) that have been stitched in chronological order to form a shorter video. The former type of a video summary is known as video storyboard, and the latter type is known as video skim.

Source: Video Summarization Using Deep Neural Networks: A Survey Image credit: iJRASET

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 280 papers

Title	Date	Tasks	Status	Hype
TRIM: A Self-Supervised Video Summarization Framework Maximizing Temporal Relative Information and Representativeness	Jun 25, 2025	Self-Supervised LearningSupervised Video Summarization	—Unverified	0
MF2Summ: Multimodal Fusion for Video Summarization with Temporal Alignment	Jun 12, 2025	Video Summarization	—Unverified	0
Prompts to Summaries: Zero-Shot Language-Guided Video Summarization	Jun 12, 2025	GPUQuery focused video summarization	—Unverified	0
Enhancing Video Memorability Prediction with Text-Motion Cross-modal Contrastive Loss and Its Application in Video Summarization	Jun 10, 2025	PredictionVideo Summarization	—Unverified	0
TriPSS: A Tri-Modal Keyframe Extraction Framework Using Perceptual, Structural, and Semantic Representations	Jun 3, 2025	RetrievalVideo Summarization	—Unverified	0
Unsupervised Transcript-assisted Video Summarization and Highlight Detection	May 29, 2025	Highlight DetectionReinforcement Learning (RL)	—Unverified	0
REGen: Multimodal Retrieval-Embedded Generation for Long-to-Short Video Editing	May 24, 2025	Language ModelingLanguage Modelling	—Unverified	0
SD-VSum: A Method and Dataset for Script-Driven Video Summarization	May 6, 2025	Video Summarization	CodeCode Available	0
Video Summarization with Large Language Models	Apr 15, 2025	Large Language ModelVideo Summarization	—Unverified	0
Automatic Detection of Intro and Credits in Video using CLIP and Multihead Attention	Apr 13, 2025	CPUHighlight Detection	—Unverified	0
FaVChat: Unlocking Fine-Grained Facail Video Understanding with Multimodal Large Language Models	Mar 12, 2025	Mixture-of-ExpertsQuestion Answering	—Unverified	0
A Novel Trustworthy Video Summarization Algorithm Through a Mixture of LoRA Experts	Mar 8, 2025	Mixture-of-ExpertsVideo Summarization	—Unverified	0
An Egocentric Vision-Language Model based Portable Real-time Smart Assistant	Mar 6, 2025	Language ModelingLanguage Modelling	CodeCode Available	2
Parameter-free Video Segmentation for Vision and Language Understanding	Mar 3, 2025	Question AnsweringVideo Question Answering	—Unverified	0
CFSum: A Transformer-Based Multi-Modal Video Summarization Framework With Coarse-Fine Fusion	Mar 1, 2025	Video Summarization	—Unverified	0
Integrate the temporal scheme for unsupervised video summarization via attention mechanism	Feb 26, 2025	Unsupervised Video SummarizationVideo Summarization	CodeCode Available	0
Reinforcement Learning for Ultrasound Image Analysis A Comprehensive Review of Advances and Applications	Feb 20, 2025	Decision MakingDeep Reinforcement Learning	—Unverified	0
What Is That Talk About? A Video-to-Text Summarization Dataset for Scientific Presentations	Feb 12, 2025	Text SummarizationVideo Summarization	CodeCode Available	0
FullTransNet: Full Transformer with Local-Global Attention for Video Summarization	Jan 1, 2025	DecoderSupervised Video Summarization	—Unverified	0
Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning	Dec 18, 2024	Moment RetrievalMulti-Task Learning	—Unverified	0
Do Language Models Understand Time?	Dec 18, 2024	Action RecognitionAnomaly Detection	CodeCode Available	1
Video Repurposing from User Generated Content: A Large-scale Dataset and Benchmark	Dec 12, 2024	Highlight DetectionVideo Summarization	CodeCode Available	1
Agent-based Video Trimming	Dec 12, 2024	Highlight DetectionMoment Retrieval	—Unverified	0
Video Summarization using Denoising Diffusion Probabilistic Model	Dec 11, 2024	Denoisingmodel	—Unverified	0
Personalized Video Summarization by Multimodal Video Understanding	Nov 5, 2024	Unsupervised Video SummarizationVideo Summarization	—Unverified	0
Your Interest, Your Summaries: Query-Focused Long Video Summarization	Oct 17, 2024	Query focused video summarizationVideo Summarization	CodeCode Available	0
Exploring Efficient Foundational Multi-modal Models for Video Summarization	Oct 9, 2024	Language ModelingLanguage Modelling	—Unverified	0
Realizing Video Summarization from the Path of Language-based Semantic Understanding	Oct 6, 2024	Mixture-of-ExpertsVideo Generation	—Unverified	0
Video Summarization Techniques: A Comprehensive Review	Oct 6, 2024	Abstractive Text SummarizationExtractive Summarization	—Unverified	0
Does SpatioTemporal information benefit Two video summarization benchmarks?	Oct 4, 2024	Activity RecognitionVideo Summarization	CodeCode Available	0
EDSNet: Efficient-DSNet for Video Summarization	Sep 23, 2024	Video Summarization	—Unverified	0
Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding	Sep 22, 2024	Anomaly DetectionGPU	CodeCode Available	4
Personalized Video Summarization using Text-Based Queries and Conditional Modeling	Aug 27, 2024	Video SummarizationWord Embeddings	—Unverified	0
EgoSonics: Generating Synchronized Audio for Silent Egocentric Videos	Jul 30, 2024	Audio SynthesisVideo Summarization	—Unverified	0
Multimodal Language Models for Domain-Specific Procedural Video Summarization	Jul 7, 2024	Video Summarization	—Unverified	0
Unsupervised Video Summarization via Reinforcement Learning and a Trained Evaluator	Jul 5, 2024	reinforcement-learningReinforcement Learning	—Unverified	0
UBiSS: A Unified Framework for Bimodal Semantic Summarization of Videos	Jun 24, 2024	TripletVideo Summarization	CodeCode Available	0
A Human-Annotated Video Dataset for Training and Evaluation of 360-Degree Video Summarization Methods	Jun 5, 2024	Video Summarization	CodeCode Available	0
Shotluck Holmes: A Family of Efficient Small-Scale Large Language Vision Models For Video Captioning and Summarization	May 31, 2024	SentenceVideo Captioning	CodeCode Available	1
VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding	May 22, 2024	Dense Video CaptioningHighlight Detection	CodeCode Available	2
CSTA: CNN-based Spatiotemporal Attention for Video Summarization	May 20, 2024	Supervised Video SummarizationVideo Summarization	—Unverified	0
"Previously on ..." From Recaps to Story Summarization	May 19, 2024	Video Summarization	—Unverified	0
An Integrated Framework for Multi-Granular Explanation of Video Summarization	May 16, 2024	BenchmarkingPanoptic Segmentation	CodeCode Available	0
Language-Guided Self-Supervised Video Summarization Using Text Semantic Matching Considering the Diversity of the Video	May 14, 2024	DiversitySupervised Video Summarization	—Unverified	0
Pegasus-v1 Technical Report	Apr 23, 2024	Language ModelingLanguage Modelling	—Unverified	0
V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning	Apr 18, 2024	Text SummarizationVideo Summarization	—Unverified	0
VideoSAGE: Video Summarization with Graph Representation Learning	Apr 14, 2024	Graph Representation LearningNode Classification	CodeCode Available	2
Enhancing Video Summarization with Context Awareness	Apr 6, 2024	BenchmarkingInformativeness	CodeCode Available	0
Cluster-based Video Summarization with Temporal Context Awareness	Apr 6, 2024	ClusteringUnsupervised Video Summarization	CodeCode Available	0
Scaling Up Video Summarization Pretraining with Large Language Models	Apr 4, 2024	Video AlignmentVideo Summarization	—Unverified	0

Show:10 25 50

← PrevPage 1 of 6Next →

All datasets SumMe TvSum Shot2Story20K Query-Focused Video Summarization Dataset Mr. HiSum VideoXum

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PGL-SUM	F1-score (Canonical)	55.6	—	Unverified
2	RR-STG	F1-score (Canonical)	54.5	—	Unverified
3	DSNet	F1-score (Canonical)	53	—	Unverified
4	VASNet	F1-score (Canonical)	49.71	—	Unverified
5	M-AVS	F1-score (Canonical)	44.4	—	Unverified
6	CSTA	Kendall's Tau	0.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RR-STG	F1-score (Canonical)	63	—	Unverified
2	DSNet	F1-score (Canonical)	62.1	—	Unverified
3	VASNet	F1-score (Canonical)	61.42	—	Unverified
4	PGL-SUM	F1-score (Canonical)	61	—	Unverified
5	M-AVS	F1-score (Canonical)	61	—	Unverified
6	CSTA	Kendall's Tau	0.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Shotluck-Holmes (3.1B)	CIDEr	152.3	—	Unverified
2	Shotluck-Holmes (3.1B)	CIDEr	63.2	—	Unverified
3	SUM-shot	CIDEr	8.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EgoVLPv2	F1 (avg)	52.08	—	Unverified
2	EgoVLP	F1 (avg)	49.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PGL-SUM	MAP (50%)	61.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VTSUM-BLIP	1 shot Micro-F1	23.5	—	Unverified