Video Instance Segmentation

The goal of video instance segmentation is simultaneous detection, segmentation and tracking of instances in videos. In words, it is the first time that the image instance segmentation problem is extended to the video domain.

To facilitate research on this new task, a large-scale benchmark called YouTube-VIS, which consists of 2,883 high-resolution YouTube videos, a 40-category label set and 131k high-quality instance masks is built.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–148 of 148 papers

Title	Date	Tasks	Status
LSVOS Challenge 3rd Place Report: SAM2 and Cutie based VOS	Aug 20, 2024	Instance SegmentationObject	—Unverified
A Comprehensive Survey on Video Scene Parsing:Advances, Challenges, and Prospects	Jun 16, 2025	BenchmarkingInstance Segmentation	—Unverified
Self-supervised Video Instance Segmentation Can Boost Geographic Entity Alignment in Historical Maps	Nov 26, 2024	Entity AlignmentInstance Segmentation	—Unverified
Beyond Appearance: Geometric Cues for Robust Video Instance Segmentation	Jul 8, 2025	Depth EstimationDepth Prediction	—Unverified
Decoupled Motion Expression Video Segmentation	Jan 1, 2025	Instance SegmentationReferring Video Object Segmentation	—Unverified
Towards Robust Video Instance Segmentation with Temporal-Aware Transformer	Jan 20, 2023	DecoderInstance Segmentation	—Unverified
1st Place Solution for YouTubeVOS Challenge 2021:Video Instance Segmentation	Jun 12, 2021	SegmentationVideo Instance Segmentation	—Unverified
Efficient Video Instance Segmentation via Tracklet Query and Proposal	Mar 3, 2022	Instance SegmentationSegmentation	—Unverified
A Temporal Modeling Framework for Video Pre-Training on Video Instance Segmentation	Mar 22, 2025	Instance SegmentationSemantic Segmentation	—Unverified
Efficient Video Segmentation Models with Per-frame Inference	Feb 24, 2022	Image MattingInstance Segmentation	—Unverified
Video Instance Segmentation by Instance Flow Assembly	Oct 20, 2021	Instance SegmentationObject	—Unverified
Maximal Cliques on Multi-Frame Proposal Graph for Unsupervised Video Object Segmentation	Jan 29, 2023	Instance SegmentationObject	—Unverified
2nd Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation	Jun 20, 2024	Instance SegmentationReferring Video Object Segmentation	—Unverified
Minimizing Labeled, Maximizing Unlabeled: An Image-Driven Approach for Video Instance Segmentation	Jan 1, 2025	Instance SegmentationSemantic Segmentation	—Unverified
FlowCut: Unsupervised Video Instance Segmentation via Temporal Mask Matching	May 19, 2025	Instance SegmentationSegmentation	—Unverified
A Reinforcement-Learning-Based Energy-Efficient Framework for Multi-Task Video Analytics Pipeline	Apr 9, 2021	Deep Reinforcement LearningInstance Segmentation	—Unverified
Contextual Guided Segmentation Framework for Semi-supervised Video Instance Segmentation	Jun 7, 2021	Human-Object Interaction DetectionInstance Segmentation	—Unverified
A2VIS: Amodal-Aware Approach to Video Instance Segmentation	Dec 2, 2024	Instance SegmentationMultiple Object Tracking	—Unverified
Human Instance Segmentation and Tracking via Data Association and Single-stage Detector	Mar 31, 2022	Human Instance SegmentationInstance Segmentation	—Unverified
Hybrid Instance-aware Temporal Fusion for Online Video Instance Segmentation	Dec 3, 2021	Image SegmentationInstance Segmentation	—Unverified
MobileInst: Video Instance Segmentation on the Mobile	Mar 30, 2023	CPUDecoder	—Unverified
MoSAM: Motion-Guided Segment Anything Model with Spatial-Temporal Memory Selection	Apr 30, 2025	Instance SegmentationInteractive Segmentation	—Unverified
STC: Spatio-Temporal Contrastive Learning for Video Instance Segmentation	Feb 8, 2022	Contrastive LearningInstance Segmentation	—Unverified
Consistent Video Instance Segmentation with Inter-Frame Recurrent Attention	Jun 14, 2022	Instance SegmentationObject	—Unverified
InsPro: Propagating Instance Query and Proposal for Online Video Instance Segmentation	Jan 5, 2023	Instance SegmentationObject	—Unverified
Video Instance Segmentation Tracking With a Modified VAE Architecture	Jun 1, 2020	Instance Segmentationobject-detection	—Unverified
3rd Place Solution for PVUW Challenge 2023: Video Panoptic Segmentation	Jun 11, 2023	Instance SegmentationPanoptic Segmentation	—Unverified
Tag-Based Attention Guided Bottom-Up Approach for Video Instance Segmentation	Apr 22, 2022	Instance SegmentationSemantic Segmentation	—Unverified
1st Place Solution for CVPR2023 BURST Long Tail and Open World Challenges	Aug 8, 2023	Instance SegmentationSemantic Segmentation	—Unverified
CML-MOTS: Collaborative Multi-task Learning for Multi-Object Tracking and Segmentation	Nov 2, 2023	Autonomous DrivingInstance Segmentation	—Unverified
Classifying, Segmenting, and Tracking Object Instances in Video with Mask Propagation	Dec 10, 2019	Instance SegmentationObject	—Unverified
Object Segmentation with Audio Context	Jan 4, 2023	audio-visual learningDecoder	—Unverified
The Runner-up Solution for YouTube-VIS Long Video Challenge 2022	Nov 18, 2022	Contrastive LearningInstance Segmentation	—Unverified
Occluded Video Instance Segmentation: Dataset and ICCV 2021 Challenge	Nov 15, 2021	Instance SegmentationObject Recognition	—Unverified
Are Deep Learning Models Robust to Partial Object Occlusion in Visual Recognition Tasks?	Sep 16, 2024	Data Augmentationimage-classification	—Unverified
Offline-to-Online Knowledge Distillation for Video Instance Segmentation	Feb 15, 2023	Data AugmentationInstance Segmentation	—Unverified
Temporal RoI Align for Video Object Recognition	Sep 8, 2021	Instance SegmentationObject	—Unverified
Online Video Instance Segmentation via Robust Context Fusion	Jul 12, 2022	Instance SegmentationSegmentation	—Unverified
NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation	Aug 29, 2023	Instance SegmentationSegmentation	—Unverified
OW-VISCapTor: Abstractors for Open-World Video Instance Segmentation and Captioning	Apr 4, 2024	DescriptiveDiversity	—Unverified
PM-VIS: High-Performance Box-Supervised Video Instance Segmentation	Apr 22, 2024	Instance SegmentationSemantic Segmentation	—Unverified
Learning Video Instance Segmentation with Recurrent Graph Neural Networks	Dec 7, 2020	Graph Neural NetworkInstance Segmentation	—Unverified
UVIS: Unsupervised Video Instance Segmentation	Jun 11, 2024	Instance SegmentationLanguage Modelling	—Unverified
Quantifying and Learning Static vs. Dynamic Information in Deep Spatiotemporal Networks	Nov 3, 2022	Action RecognitionInstance Segmentation	—Unverified
1st Place Winner of the 2024 Pixel-level Video Understanding in the Wild (CVPR'24 PVUW) Challenge in Video Panoptic Segmentation and Best Long Video Consistency of Video Semantic Segmentation	Jun 8, 2024	BenchmarkingInstance Segmentation	—Unverified
What is Point Supervision Worth in Video Instance Segmentation?	Apr 1, 2024	Instance SegmentationObject	—Unverified
RefineVIS: Video Instance Segmentation with Temporal Attention Refinement	Jun 7, 2023	Contrastive LearningDenoising	—Unverified
A Graph Matching Perspective With Transformers on Video Instance Segmentation	Jan 1, 2022	Graph MatchingInstance Segmentation	—Unverified

Show:10 25 50

← PrevPage 3 of 3Next →

All datasets OVIS validation YouTube-VIS validation YouTube-VIS 2021 Youtube-VIS 2022 Validation BDD100K val HQ-YTVIS YouTube-VIS Youtube-VIS (trained with no video masks)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	CAVIS(VIT-L, Offline)	mask AP	57.1	—	Unverified
2	DVIS-DAQ(VIT-L, Offline)	mask AP	57.1	—	Unverified
3	DVIS++(VIT-L,Offline)	mask AP	53.4	—	Unverified
4	GLEE-Pro	mask AP	50.4	—	Unverified
5	DVIS(Swin-L, Offline)	mask AP	49.9	—	Unverified
6	DVIS++(VIT-L, Online)	mask AP	49.6	—	Unverified
7	UNINEXT (ViT-H, Online)	mask AP	49	—	Unverified
8	DVIS(Swin-L, Online)	mask AP	47.1	—	Unverified
9	CTVIS (Swin-L)	mask AP	46.9	—	Unverified
10	RefineVIS (Swin-L, offline)	mask AP	46	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CAVIS(ViT-L, Online)	mask AP	68.9	—	Unverified
2	DVIS++(ViT-L, Online)	mask AP	67.7	—	Unverified
3	DVIS	mask AP	64.9	—	Unverified
4	Tube-Link	mask AP	64.6	—	Unverified
5	MinVIS (Swin-L)	mask AP	61.6	—	Unverified
6	Mask2Former (Swin-L)	mask AP	60.4	—	Unverified
7	UniVS(Swin-L)	mask AP	60	—	Unverified
8	MDQE(Swin-L)	mask AP	59.9	—	Unverified
9	SeqFormer (Swin-L)	mask AP	59.3	—	Unverified
10	DeVIS (Swin-L)	mask AP	57.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CAVIS(VIT-L, Offline)	mask AP	65.3	—	Unverified
2	DVIS-DAQ(VIT-L, Offline)	mask AP	64.5	—	Unverified
3	DVIS++(VIT-L, Offline)	mask AP	63.9	—	Unverified
4	DVIS++(VIT-L, Online)	mask AP	62.3	—	Unverified
5	RefineVIS (Swin-L, online)	mask AP	61.4	—	Unverified
6	GRAtt-VIS (Swin-L)	mask AP	60.3	—	Unverified
7	TarViS (Swin-L)	mask AP	60.2	—	Unverified
8	DVIS(Swin-L)	mask AP	60.1	—	Unverified
9	GenVIS (Swin-L)	mask AP	60.1	—	Unverified
10	NOVIS (Swin-L)	mask AP	59.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVIS++(VIT-L)	mAP_L	50.9	—	Unverified
2	CAVIS (VIT-L)	mAP_L	48.6	—	Unverified
3	CTVIS (Swin-L)	mAP_L	46.4	—	Unverified
4	DVIS(Swin-L)	mAP_L	45.9	—	Unverified
5	CTVIS (ResNet-50)	mAP_L	39.4	—	Unverified
6	InstanceFormer (Swin)	mAP_L	26.3	—	Unverified
7	InstanceFormer (Resnet-50)	mAP_L	24.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PCAN	mMOTSA	27.4	—	Unverified
2	QDTrack-mots-fix	mMOTSA	23.5	—	Unverified
3	QDTrack-mots	mMOTSA	22.5	—	Unverified
4	MaskTrackRCNN	mMOTSA	12.3	—	Unverified
5	STEm-Seg	mMOTSA	12.2	—	Unverified
6	SortIoU	mMOTSA	10.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VMT (Swin-L)	Tube-Boundary AP	44.8	—	Unverified
2	SeqFormer (Swin-L)	Tube-Boundary AP	43.3	—	Unverified
3	VMT (R101)	Tube-Boundary AP	32.5	—	Unverified
4	VMT (R50)	Tube-Boundary AP	30.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Temporal ROI Align	mask AP	38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MaskFreeVIS	AP	55.3	—	Unverified