Video Instance Segmentation

The goal of video instance segmentation is simultaneous detection, segmentation and tracking of instances in videos. In words, it is the first time that the image instance segmentation problem is extended to the video domain.

To facilitate research on this new task, a large-scale benchmark called YouTube-VIS, which consists of 2,883 high-resolution YouTube videos, a 40-category label set and 131k high-quality instance masks is built.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 148 papers

Title	Date	Tasks	Status	Hype
SeqFormer: Sequential Transformer for Video Instance Segmentation	Dec 15, 2021	Instance SegmentationSemantic Segmentation	CodeCode Available	1
SG-Net: Spatial Granularity Network for One-Stage Video Instance Segmentation	Mar 18, 2021	Head DetectionInstance Segmentation	CodeCode Available	1
Simple Online and Realtime Tracking with a Deep Association Metric	Mar 21, 2017	3D Multi-Object TrackingLarge-Scale Person Re-Identification	CodeCode Available	1
SipMask: Spatial Information Preservation for Fast Image and Video Instance Segmentation	Jul 29, 2020	Instance Segmentationobject-detection	CodeCode Available	1
Spatial Feature Calibration and Temporal Fusion for Effective One-stage Video Instance Segmentation	Apr 6, 2021	Instance SegmentationSegmentation	CodeCode Available	1
Spatio-temporal Prompting Network for Robust Video Feature Extraction	Feb 4, 2024	Instance Segmentationobject-detection	CodeCode Available	1
STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos	Mar 18, 2020	Instance SegmentationSemantic Segmentation	CodeCode Available	1
SyncVIS: Synchronized Video Instance Segmentation	Dec 1, 2024	Instance SegmentationSegmentation	CodeCode Available	1
TDViT: Temporal Dilated Video Transformer for Dense Video Tasks	Feb 14, 2024	Instance Segmentationobject-detection	CodeCode Available	1
TIVE: A Toolbox for Identifying Video Instance Segmentation Errors	Oct 17, 2022	Instance SegmentationSegmentation	CodeCode Available	1
TMT-VIS: Taxonomy-aware Multi-dataset Joint Training for Video Instance Segmentation	Dec 11, 2023	Instance SegmentationSemantic Segmentation	CodeCode Available	1
Towards Open-Vocabulary Video Instance Segmentation	Apr 4, 2023	Instance SegmentationSegmentation	CodeCode Available	1
Tracking Instances as Queries	Jun 22, 2021	Instance Segmentationobject-detection	CodeCode Available	1
Track to Detect and Segment: An Online Multi-Object Tracker	Mar 16, 2021	3D Multi-Object TrackingInstance Segmentation	CodeCode Available	1
Tube-Link: A Flexible Cross Tube Framework for Universal Video Segmentation	Mar 22, 2023	Contrastive LearningSegmentation	CodeCode Available	1
Unified Embedding Alignment for Open-Vocabulary Video Instance Segmentation	Jul 10, 2024	Instance SegmentationSemantic Segmentation	CodeCode Available	1
Video Instance Matting	Nov 7, 2023	BinarizationImage Matting	CodeCode Available	1
Video Instance Segmentation using Inter-Frame Communication Transformers	Jun 7, 2021	Instance SegmentationVideo Instance Segmentation	CodeCode Available	1
Video Instance Segmentation via Multi-scale Spatio-temporal Split Attention Transformer	Mar 24, 2022	Instance SegmentationSemantic Segmentation	CodeCode Available	1
Video Instance Segmentation with a Propose-Reduce Paradigm	Mar 25, 2021	Instance SegmentationSegmentation	CodeCode Available	1
Video K-Net: A Simple, Strong, and Unified Baseline for Video Segmentation	Apr 10, 2022	Image SegmentationInstance Segmentation	CodeCode Available	1
Video Mask Transfiner for High-Quality Video Instance Segmentation	Jul 28, 2022	Instance SegmentationSemantic Segmentation	CodeCode Available	1
Video Panoptic Segmentation	Jun 19, 2020	Instance SegmentationPanoptic Segmentation	CodeCode Available	1
Video Sparse Transformer With Attention-Guided Memory for Video Object Detection	Jun 17, 2022	Objectobject-detection	CodeCode Available	1
VISAGE: Video Instance Segmentation with Appearance-Guided Enhancement	Dec 8, 2023	Instance SegmentationSemantic Segmentation	CodeCode Available	1
VISOLO: Grid-Based Space-Time Aggregation for Efficient Online Video Instance Segmentation	Dec 8, 2021	Instance SegmentationSemantic Segmentation	CodeCode Available	1
VITA: Video Instance Segmentation via Object Token Association	Jun 9, 2022	GPUInstance Segmentation	CodeCode Available	1
Classifying, Segmenting, and Tracking Object Instances in Video with Mask Propagation	Dec 10, 2019	Instance SegmentationObject	—Unverified	0
What is Point Supervision Worth in Video Instance Segmentation?	Apr 1, 2024	Instance SegmentationObject	—Unverified	0
RefineVIS: Video Instance Segmentation with Temporal Attention Refinement	Jun 7, 2023	Contrastive LearningDenoising	—Unverified	0
Learning Video Instance Segmentation with Recurrent Graph Neural Networks	Dec 7, 2020	Graph Neural NetworkInstance Segmentation	—Unverified	0
Less than Few: Self-Shot Video Instance Segmentation	Apr 19, 2022	Few-Shot LearningInstance Segmentation	—Unverified	0
LSVOS Challenge 3rd Place Report: SAM2 and Cutie based VOS	Aug 20, 2024	Instance SegmentationObject	—Unverified	0
Beyond Appearance: Geometric Cues for Robust Video Instance Segmentation	Jul 8, 2025	Depth EstimationDepth Prediction	—Unverified	0
A Temporal Modeling Framework for Video Pre-Training on Video Instance Segmentation	Mar 22, 2025	Instance SegmentationSemantic Segmentation	—Unverified	0
Maximal Cliques on Multi-Frame Proposal Graph for Unsupervised Video Object Segmentation	Jan 29, 2023	Instance SegmentationObject	—Unverified	0
2nd Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation	Jun 20, 2024	Instance SegmentationReferring Video Object Segmentation	—Unverified	0
Minimizing Labeled, Maximizing Unlabeled: An Image-Driven Approach for Video Instance Segmentation	Jan 1, 2025	Instance SegmentationSemantic Segmentation	—Unverified	0
A Reinforcement-Learning-Based Energy-Efficient Framework for Multi-Task Video Analytics Pipeline	Apr 9, 2021	Deep Reinforcement LearningInstance Segmentation	—Unverified	0
A2VIS: Amodal-Aware Approach to Video Instance Segmentation	Dec 2, 2024	Instance SegmentationMultiple Object Tracking	—Unverified	0
MobileInst: Video Instance Segmentation on the Mobile	Mar 30, 2023	CPUDecoder	—Unverified	0
MoSAM: Motion-Guided Segment Anything Model with Spatial-Temporal Memory Selection	Apr 30, 2025	Instance SegmentationInteractive Segmentation	—Unverified	0
Temporal RoI Align for Video Object Recognition	Sep 8, 2021	Instance SegmentationObject	—Unverified	0
A Graph Matching Perspective With Transformers on Video Instance Segmentation	Jan 1, 2022	Graph MatchingInstance Segmentation	—Unverified	0
NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation	Aug 29, 2023	Instance SegmentationSegmentation	—Unverified	0
RipVIS: Rip Currents Video Instance Segmentation Benchmark for Beach Monitoring and Safety	Apr 1, 2025	Instance SegmentationSegmentation	—Unverified	0
Are Deep Learning Models Robust to Partial Object Occlusion in Visual Recognition Tasks?	Sep 16, 2024	Data Augmentationimage-classification	—Unverified	0
SAM2Auto: Auto Annotation Using FLASH	Jun 9, 2025	Instance SegmentationObject	—Unverified	0
SDI-Paste: Synthetic Dynamic Instance Copy-Paste for Video Instance Segmentation	Oct 16, 2024	Data AugmentationInstance Segmentation	—Unverified	0
Deep Learning Techniques for Video Instance Segmentation: A Survey	Oct 19, 2023	Action RecognitionDeep Learning	—Unverified	0

Show:10 25 50

← PrevPage 2 of 3Next →

All datasets OVIS validation YouTube-VIS validation YouTube-VIS 2021 Youtube-VIS 2022 Validation BDD100K val HQ-YTVIS YouTube-VIS Youtube-VIS (trained with no video masks)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	CAVIS(VIT-L, Offline)	mask AP	57.1	—	Unverified
2	DVIS-DAQ(VIT-L, Offline)	mask AP	57.1	—	Unverified
3	DVIS++(VIT-L,Offline)	mask AP	53.4	—	Unverified
4	GLEE-Pro	mask AP	50.4	—	Unverified
5	DVIS(Swin-L, Offline)	mask AP	49.9	—	Unverified
6	DVIS++(VIT-L, Online)	mask AP	49.6	—	Unverified
7	UNINEXT (ViT-H, Online)	mask AP	49	—	Unverified
8	DVIS(Swin-L, Online)	mask AP	47.1	—	Unverified
9	CTVIS (Swin-L)	mask AP	46.9	—	Unverified
10	RefineVIS (Swin-L, offline)	mask AP	46	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CAVIS(ViT-L, Online)	mask AP	68.9	—	Unverified
2	DVIS++(ViT-L, Online)	mask AP	67.7	—	Unverified
3	DVIS	mask AP	64.9	—	Unverified
4	Tube-Link	mask AP	64.6	—	Unverified
5	MinVIS (Swin-L)	mask AP	61.6	—	Unverified
6	Mask2Former (Swin-L)	mask AP	60.4	—	Unverified
7	UniVS(Swin-L)	mask AP	60	—	Unverified
8	MDQE(Swin-L)	mask AP	59.9	—	Unverified
9	SeqFormer (Swin-L)	mask AP	59.3	—	Unverified
10	DeVIS (Swin-L)	mask AP	57.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CAVIS(VIT-L, Offline)	mask AP	65.3	—	Unverified
2	DVIS-DAQ(VIT-L, Offline)	mask AP	64.5	—	Unverified
3	DVIS++(VIT-L, Offline)	mask AP	63.9	—	Unverified
4	DVIS++(VIT-L, Online)	mask AP	62.3	—	Unverified
5	RefineVIS (Swin-L, online)	mask AP	61.4	—	Unverified
6	GRAtt-VIS (Swin-L)	mask AP	60.3	—	Unverified
7	TarViS (Swin-L)	mask AP	60.2	—	Unverified
8	DVIS(Swin-L)	mask AP	60.1	—	Unverified
9	GenVIS (Swin-L)	mask AP	60.1	—	Unverified
10	NOVIS (Swin-L)	mask AP	59.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVIS++(VIT-L)	mAP_L	50.9	—	Unverified
2	CAVIS (VIT-L)	mAP_L	48.6	—	Unverified
3	CTVIS (Swin-L)	mAP_L	46.4	—	Unverified
4	DVIS(Swin-L)	mAP_L	45.9	—	Unverified
5	CTVIS (ResNet-50)	mAP_L	39.4	—	Unverified
6	InstanceFormer (Swin)	mAP_L	26.3	—	Unverified
7	InstanceFormer (Resnet-50)	mAP_L	24.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PCAN	mMOTSA	27.4	—	Unverified
2	QDTrack-mots-fix	mMOTSA	23.5	—	Unverified
3	QDTrack-mots	mMOTSA	22.5	—	Unverified
4	MaskTrackRCNN	mMOTSA	12.3	—	Unverified
5	STEm-Seg	mMOTSA	12.2	—	Unverified
6	SortIoU	mMOTSA	10.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VMT (Swin-L)	Tube-Boundary AP	44.8	—	Unverified
2	SeqFormer (Swin-L)	Tube-Boundary AP	43.3	—	Unverified
3	VMT (R101)	Tube-Boundary AP	32.5	—	Unverified
4	VMT (R50)	Tube-Boundary AP	30.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Temporal ROI Align	mask AP	38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MaskFreeVIS	AP	55.3	—	Unverified