Video Semantic Segmentation

The goal of video semantic segmentation is to assign a predefined class to each pixel in all frames of a video. This requires the model not only to predict accurate segmentation masks but also to ensure that these masks remain temporally consistent across frames. This task has broad applications in areas such as autonomous driving, medical video analysis, and AR/VR.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 895 papers

Title	Date	Tasks	Status	Hype
Kernelized Memory Network for Video Object Segmentation	Jul 16, 2020	ObjectSemantic Segmentation	CodeCode Available	1
Language-Bridged Spatial-Temporal Interaction for Referring Video Object Segmentation	Jun 8, 2022	DenoisingReferring Video Object Segmentation	CodeCode Available	1
D2Conv3D: Dynamic Dilated Convolutions for Object Segmentation in Videos	Nov 15, 2021	Multi-Object Tracking and SegmentationSegmentation	CodeCode Available	1
D^2Conv3D: Dynamic Dilated Convolutions for Object Segmentation in Videos	Nov 15, 2021	SegmentationSemantic Segmentation	CodeCode Available	1
Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation	Aug 13, 2023	Semantic SegmentationVideo Object Segmentation	CodeCode Available	1
DVIS++: Improved Decoupled Framework for Universal Video Segmentation	Dec 20, 2023	Contrastive LearningDenoising	CodeCode Available	1
Integrating Boxes and Masks: A Multi-Object Framework for Unified Visual Tracking and Segmentation	Aug 25, 2023	ObjectObject Tracking	CodeCode Available	1
Actor and Action Video Segmentation from a Sentence	Mar 20, 2018	Action SegmentationDecoder	CodeCode Available	1
Interactive Video Object Segmentation Using Global and Local Transfer Modules	Jul 16, 2020	DecoderInteractive Video Object Segmentation	CodeCode Available	1
Unified Domain Adaptive Semantic Segmentation	Nov 22, 2023	Data AugmentationOptical Flow Estimation	CodeCode Available	1
1st Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation	Jun 11, 2024	Referring Video Object SegmentationSegmentation	CodeCode Available	1
DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency	Apr 16, 2025	Few-Shot LearningInteractive Segmentation	CodeCode Available	1
Adaptive Multi-source Predictor for Zero-shot Video Object Segmentation	Mar 18, 2023	ObjectOptical Flow Estimation	CodeCode Available	1
Decoupled Seg Tokens Make Stronger Reasoning Video Segmenter and Grounder	Jun 28, 2025	Image SegmentationLarge Language Model	CodeCode Available	1
Joint Inductive and Transductive Learning for Video Object Segmentation	Aug 8, 2021	Inductive LearningObject	CodeCode Available	1
LaRS: A Diverse Panoptic Maritime Obstacle Detection Dataset and Benchmark	Aug 18, 2023	DiversityPanoptic Segmentation	CodeCode Available	1
Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised Video Object Segmentation	Dec 21, 2020	One-shot visual object segmentationSegmentation	CodeCode Available	1
Cross-Modal Progressive Comprehension for Referring Segmentation	May 15, 2021	AttributeImage Segmentation	CodeCode Available	1
Deep Feature Flow for Video Recognition	Nov 23, 2016	Video RecognitionVideo Semantic Segmentation	CodeCode Available	1
Local-Global Context Aware Transformer for Language-Guided Video Segmentation	Mar 18, 2022	Referring Expression SegmentationReferring Video Object Segmentation	CodeCode Available	1
LVOS: A Benchmark for Long-term Video Object Segmentation	Nov 18, 2022	ObjectSemantic Segmentation	CodeCode Available	1
M^3-VOS: Multi-Phase, Multi-Transition, and Multi-Scenery Video Object Segmentation	Dec 18, 2024	ObjectSemantic Segmentation	CodeCode Available	1
CrOC: Cross-View Online Clustering for Dense Visual Representation Learning	Mar 23, 2023	ClusteringOnline Clustering	CodeCode Available	1
Making a Case for 3D Convolutions for Object Segmentation in Videos	Aug 26, 2020	DecoderSegmentation	CodeCode Available	1
A Survey on Deep Learning Technique for Video Segmentation	Jul 2, 2021	Autonomous DrivingDeep Learning	CodeCode Available	1
In-N-Out Generative Learning for Dense Unsupervised Video Segmentation	Mar 29, 2022	Contrastive LearningSemantic Segmentation	CodeCode Available	1
AutoVisual Fusion Suite: A Comprehensive Evaluation of Image Segmentation and Voice Conversion Tools on HuggingFace Platform	Dec 17, 2023	Image SegmentationSegmentation	CodeCode Available	1
Delving Deep Into Many-to-Many Attention for Few-Shot Video Object Segmentation	Jun 19, 2021	Meta-LearningSemantic Segmentation	CodeCode Available	1
Associating Objects with Transformers for Video Object Segmentation	Jun 4, 2021	ObjectOne-shot visual object segmentation	CodeCode Available	1
Dense Unsupervised Learning for Video Segmentation	Nov 11, 2021	SegmentationSemantic Segmentation	CodeCode Available	1
Active Boundary Loss for Semantic Segmentation	Feb 4, 2021	SegmentationSemantic Segmentation	CodeCode Available	1
A Deeper Dive Into What Deep Spatiotemporal Networks Encode: Quantifying Static vs. Dynamic Information	Jun 6, 2022	Action RecognitionSemantic Segmentation	CodeCode Available	1
Event-Free Moving Object Segmentation from Moving Ego Vehicle	Apr 28, 2023	Autonomous DrivingBenchmarking	CodeCode Available	1
Learning Fast and Robust Target Models for Video Object Segmentation	Feb 27, 2020	One-shot visual object segmentationSegmentation	CodeCode Available	1
3rd Place Solution for PVUW2023 VSS Track: A Large Model for Semantic Segmentation on VSPW	Jun 4, 2023	PositionSegmentation	CodeCode Available	1
Differentiable Soft-Masked Attention	Jun 1, 2022	ObjectSegmentation	CodeCode Available	1
Contrastive Transformation for Self-supervised Correspondence Learning	Dec 9, 2020	Object TrackingSelf-Supervised Learning	CodeCode Available	1
Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion	Mar 14, 2021	Interactive Video Object SegmentationSemantic Segmentation	CodeCode Available	1
ActionVOS: Actions as Prompts for Video Object Segmentation	Jul 10, 2024	ObjectReferring Video Object Segmentation	CodeCode Available	1
Learning Spatio-Appearance Memory Network for High-Performance Visual Tracking	Sep 21, 2020	Object TrackingSegmentation	CodeCode Available	1
Hierarchical Memory Matching Network for Video Object Segmentation	Sep 23, 2021	ObjectRetrieval	CodeCode Available	1
Guided Slot Attention for Unsupervised Video Object Segmentation	Mar 15, 2023	ObjectSemantic Segmentation	CodeCode Available	1
Efficient Regional Memory Network for Video Object Segmentation	Mar 24, 2021	ObjectOne-shot visual object segmentation	CodeCode Available	1
A Simple and Powerful Global Optimization for Unsupervised Video Object Segmentation	Sep 19, 2022	Clusteringglobal-optimization	CodeCode Available	1
Hierarchical Feature Alignment Network for Unsupervised Video Object Segmentation	Jul 18, 2022	ObjectOptical Flow Estimation	CodeCode Available	1
Domain Adaptive Video Segmentation via Temporal Consistency Regularization	Jul 23, 2021	SegmentationUnsupervised Domain Adaptation	CodeCode Available	1
Domain Adaptive Video Segmentation via Temporal Pseudo Supervision	Jul 6, 2022	SegmentationSemantic Segmentation	CodeCode Available	1
Domain Adaptive Video Semantic Segmentation via Cross-Domain Moving Object Mixing	Nov 4, 2022	Domain AdaptationSemantic Segmentation	CodeCode Available	1
High Temporal Consistency through Semantic Similarity Propagation in Semi-Supervised Video Semantic Segmentation for Autonomous Flight	Mar 19, 2025	Image SegmentationKnowledge Distillation	CodeCode Available	1
Context-Aware Relative Object Queries To Unify Video Instance and Panoptic Segmentation	Jan 1, 2023	Instance SegmentationMulti-Object Tracking	CodeCode Available	1

Show:10 25 50

← PrevPage 4 of 18Next →

All datasets Cityscapes val CamVid VSPW LaRS Multispectral Video Semantic Segmentation

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TMANet-50	mIoU	80.3	—	Unverified
2	TDNet-50 [9]	mIoU	79.9	—	Unverified
3	DeltaDist-DDRNet-39	mIoU	79.9	—	Unverified
4	PSPNet-101 [20]	mIoU	79.7	—	Unverified
5	PSPNet-50 [20]	mIoU	78.1	—	Unverified
6	LVS [12]	mIoU	76.8	—	Unverified
7	GRFP [15]	mIoU	73.6	—	Unverified
8	FCN-50 [14]	mIoU	70.1	—	Unverified
9	DFF [22]	mIoU	69.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TMANet-50	Mean IoU	76.5	—	Unverified
2	ETC-MobileNet	Mean IoU	76.3	—	Unverified
3	TDNet-50	Mean IoU	76.2	—	Unverified
4	PSPNet-50	Mean IoU	76	—	Unverified
5	Netwarp	Mean IoU	74.7	—	Unverified
6	GRFP	Mean IoU	67.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVIS++(VIT-L)	mIoU	63.8	—	Unverified
2	UniVS(Swin-L)	mIoU	59.8	—	Unverified
3	Tube-Link(Swin-large)	mIoU	59.6	—	Unverified
4	MRCFA(MiT-B5)	mIoU	49.9	—	Unverified
5	CFFM(MiT-B5)	mIoU	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WaSR-T (ResNet-101)	Q	60.1	—	Unverified
2	TMANet (ResNet-50)	Q	57.5	—	Unverified
3	CSANet (ResNet-101)	Q	49.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MVNet(DeepLabV3)	mIoU	54.52	—	Unverified
2	MVNet(PSPNet)	mIoU	54.36	—	Unverified
3	MVNet(FCN)	mIoU	53.9	—	Unverified