Video Semantic Segmentation

The goal of video semantic segmentation is to assign a predefined class to each pixel in all frames of a video. This requires the model not only to predict accurate segmentation masks but also to ensure that these masks remain temporally consistent across frames. This task has broad applications in areas such as autonomous driving, medical video analysis, and AR/VR.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 176–200 of 895 papers

Title	Date	Tasks	Status	Hype
A Survey on Deep Learning Technique for Video Segmentation	Jul 2, 2021	Autonomous DrivingDeep Learning	CodeCode Available	1
Associating Objects with Transformers for Video Object Segmentation	Jun 4, 2021	ObjectOne-shot visual object segmentation	CodeCode Available	1
Delving Deep Into Many-to-Many Attention for Few-Shot Video Object Segmentation	Jun 19, 2021	Meta-LearningSemantic Segmentation	CodeCode Available	1
Active Boundary Loss for Semantic Segmentation	Feb 4, 2021	SegmentationSemantic Segmentation	CodeCode Available	1
Dense Unsupervised Learning for Video Segmentation	Nov 11, 2021	SegmentationSemantic Segmentation	CodeCode Available	1
Event-Free Moving Object Segmentation from Moving Ego Vehicle	Apr 28, 2023	Autonomous DrivingBenchmarking	CodeCode Available	1
A Deeper Dive Into What Deep Spatiotemporal Networks Encode: Quantifying Static vs. Dynamic Information	Jun 6, 2022	Action RecognitionSemantic Segmentation	CodeCode Available	1
LaRS: A Diverse Panoptic Maritime Obstacle Detection Dataset and Benchmark	Aug 18, 2023	DiversityPanoptic Segmentation	CodeCode Available	1
Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation	Nov 29, 2023	ClusteringObject	CodeCode Available	1
Contrastive Transformation for Self-supervised Correspondence Learning	Dec 9, 2020	Object TrackingSelf-Supervised Learning	CodeCode Available	1
Differentiable Soft-Masked Attention	Jun 1, 2022	ObjectSegmentation	CodeCode Available	1
ActionVOS: Actions as Prompts for Video Object Segmentation	Jul 10, 2024	ObjectReferring Video Object Segmentation	CodeCode Available	1
Modeling Motion with Multi-Modal Features for Text-Based Video Segmentation	Apr 6, 2022	Optical Flow EstimationReferring Expression Segmentation	CodeCode Available	1
Hierarchical Feature Alignment Network for Unsupervised Video Object Segmentation	Jul 18, 2022	ObjectOptical Flow Estimation	CodeCode Available	1
Learning Spatio-Appearance Memory Network for High-Performance Visual Tracking	Sep 21, 2020	Object TrackingSegmentation	CodeCode Available	1
Guided Interactive Video Object Segmentation Using Reliability-Based Attention Maps	Apr 21, 2021	Interactive SegmentationInteractive Video Object Segmentation	CodeCode Available	1
A Simple and Powerful Global Optimization for Unsupervised Video Object Segmentation	Sep 19, 2022	Clusteringglobal-optimization	CodeCode Available	1
Efficient Regional Memory Network for Video Object Segmentation	Mar 24, 2021	ObjectOne-shot visual object segmentation	CodeCode Available	1
Guided Slot Attention for Unsupervised Video Object Segmentation	Mar 15, 2023	ObjectSemantic Segmentation	CodeCode Available	1
Hierarchical Memory Matching Network for Video Object Segmentation	Sep 23, 2021	ObjectRetrieval	CodeCode Available	1
Domain Adaptive Video Segmentation via Temporal Consistency Regularization	Jul 23, 2021	SegmentationUnsupervised Domain Adaptation	CodeCode Available	1
Domain Adaptive Video Segmentation via Temporal Pseudo Supervision	Jul 6, 2022	SegmentationSemantic Segmentation	CodeCode Available	1
Domain Adaptive Video Semantic Segmentation via Cross-Domain Moving Object Mixing	Nov 4, 2022	Domain AdaptationSemantic Segmentation	CodeCode Available	1
Context-Aware Relative Object Queries To Unify Video Instance and Panoptic Segmentation	Jan 1, 2023	Instance SegmentationMulti-Object Tracking	CodeCode Available	1
Global Spectral Filter Memory Network for Video Object Segmentation	Oct 11, 2022	AttributeDecoder	CodeCode Available	1

Show:10 25 50

← PrevPage 8 of 36Next →

All datasets Cityscapes val CamVid VSPW LaRS Multispectral Video Semantic Segmentation

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TMANet-50	mIoU	80.3	—	Unverified
2	TDNet-50 [9]	mIoU	79.9	—	Unverified
3	DeltaDist-DDRNet-39	mIoU	79.9	—	Unverified
4	PSPNet-101 [20]	mIoU	79.7	—	Unverified
5	PSPNet-50 [20]	mIoU	78.1	—	Unverified
6	LVS [12]	mIoU	76.8	—	Unverified
7	GRFP [15]	mIoU	73.6	—	Unverified
8	FCN-50 [14]	mIoU	70.1	—	Unverified
9	DFF [22]	mIoU	69.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TMANet-50	Mean IoU	76.5	—	Unverified
2	ETC-MobileNet	Mean IoU	76.3	—	Unverified
3	TDNet-50	Mean IoU	76.2	—	Unverified
4	PSPNet-50	Mean IoU	76	—	Unverified
5	Netwarp	Mean IoU	74.7	—	Unverified
6	GRFP	Mean IoU	67.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVIS++(VIT-L)	mIoU	63.8	—	Unverified
2	UniVS(Swin-L)	mIoU	59.8	—	Unverified
3	Tube-Link(Swin-large)	mIoU	59.6	—	Unverified
4	MRCFA(MiT-B5)	mIoU	49.9	—	Unverified
5	CFFM(MiT-B5)	mIoU	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WaSR-T (ResNet-101)	Q	60.1	—	Unverified
2	TMANet (ResNet-50)	Q	57.5	—	Unverified
3	CSANet (ResNet-101)	Q	49.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MVNet(DeepLabV3)	mIoU	54.52	—	Unverified
2	MVNet(PSPNet)	mIoU	54.36	—	Unverified
3	MVNet(FCN)	mIoU	53.9	—	Unverified