Video Instance Segmentation

The goal of video instance segmentation is simultaneous detection, segmentation and tracking of instances in videos. In words, it is the first time that the image instance segmentation problem is extended to the video domain.

To facilitate research on this new task, a large-scale benchmark called YouTube-VIS, which consists of 2,883 high-resolution YouTube videos, a 40-category label set and 131k high-quality instance masks is built.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 148 papers

Title	Date	Tasks	Status	Hype
Beyond Appearance: Geometric Cues for Robust Video Instance Segmentation	Jul 8, 2025	Depth EstimationDepth Prediction	—Unverified	0
A Comprehensive Survey on Video Scene Parsing:Advances, Challenges, and Prospects	Jun 16, 2025	BenchmarkingInstance Segmentation	—Unverified	0
SAM2Auto: Auto Annotation Using FLASH	Jun 9, 2025	Instance SegmentationObject	—Unverified	0
ThinkVideo: High-Quality Reasoning Video Segmentation with Chain of Thoughts	May 24, 2025	Image SegmentationInstance Segmentation	CodeCode Available	0
FlowCut: Unsupervised Video Instance Segmentation via Temporal Mask Matching	May 19, 2025	Instance SegmentationSegmentation	—Unverified	0
MoSAM: Motion-Guided Segment Anything Model with Spatial-Temporal Memory Selection	Apr 30, 2025	Instance SegmentationInteractive Segmentation	—Unverified	0
RipVIS: Rip Currents Video Instance Segmentation Benchmark for Beach Monitoring and Safety	Apr 1, 2025	Instance SegmentationSegmentation	—Unverified	0
A Temporal Modeling Framework for Video Pre-Training on Video Instance Segmentation	Mar 22, 2025	Instance SegmentationSemantic Segmentation	—Unverified	0
Minimizing Labeled, Maximizing Unlabeled: An Image-Driven Approach for Video Instance Segmentation	Jan 1, 2025	Instance SegmentationSemantic Segmentation	—Unverified	0
Decoupled Motion Expression Video Segmentation	Jan 1, 2025	Instance SegmentationReferring Video Object Segmentation	—Unverified	0
Towards Real-Time Open-Vocabulary Video Instance Segmentation	Dec 5, 2024	Instance SegmentationSemantic Segmentation	CodeCode Available	0
A2VIS: Amodal-Aware Approach to Video Instance Segmentation	Dec 2, 2024	Instance SegmentationMultiple Object Tracking	—Unverified	0
SyncVIS: Synchronized Video Instance Segmentation	Dec 1, 2024	Instance SegmentationSegmentation	CodeCode Available	1
Self-supervised Video Instance Segmentation Can Boost Geographic Entity Alignment in Historical Maps	Nov 26, 2024	Entity AlignmentInstance Segmentation	—Unverified	0
SDI-Paste: Synthetic Dynamic Instance Copy-Paste for Video Instance Segmentation	Oct 16, 2024	Data AugmentationInstance Segmentation	—Unverified	0
Foundation Models for Amodal Video Instance Segmentation in Automated Driving	Sep 21, 2024	Amodal Instance SegmentationInstance Segmentation	CodeCode Available	0
Are Deep Learning Models Robust to Partial Object Occlusion in Visual Recognition Tasks?	Sep 16, 2024	Data Augmentationimage-classification	—Unverified	0
MouseSIS: A Frames-and-Events Dataset for Space-Time Instance Segmentation of Mice	Sep 5, 2024	Instance SegmentationSegmentation	CodeCode Available	1
Improving Weakly-supervised Video Instance Segmentation by Leveraging Spatio-temporal Consistency	Aug 29, 2024	Instance SegmentationSegmentation	CodeCode Available	1
LSVOS Challenge 3rd Place Report: SAM2 and Cutie based VOS	Aug 20, 2024	Instance SegmentationObject	—Unverified	0
Unified Embedding Alignment for Open-Vocabulary Video Instance Segmentation	Jul 10, 2024	Instance SegmentationSemantic Segmentation	CodeCode Available	1
Context-Aware Video Instance Segmentation	Jul 3, 2024	Instance SegmentationPanoptic Segmentation	CodeCode Available	2
PM-VIS+: High-Performance Video Instance Segmentation without Video Annotation	Jun 28, 2024	Instance SegmentationSegmentation	CodeCode Available	0
2nd Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation	Jun 20, 2024	Instance SegmentationReferring Video Object Segmentation	—Unverified	0
UVIS: Unsupervised Video Instance Segmentation	Jun 11, 2024	Instance SegmentationLanguage Modelling	—Unverified	0
1st Place Winner of the 2024 Pixel-level Video Understanding in the Wild (CVPR'24 PVUW) Challenge in Video Panoptic Segmentation and Best Long Video Consistency of Video Semantic Segmentation	Jun 8, 2024	BenchmarkingInstance Segmentation	—Unverified	0
PM-VIS: High-Performance Box-Supervised Video Instance Segmentation	Apr 22, 2024	Instance SegmentationSemantic Segmentation	—Unverified	0
OW-VISCapTor: Abstractors for Open-World Video Instance Segmentation and Captioning	Apr 4, 2024	DescriptiveDiversity	—Unverified	0
What is Point Supervision Worth in Video Instance Segmentation?	Apr 1, 2024	Instance SegmentationObject	—Unverified	0
DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries	Mar 29, 2024	ObjectVideo Instance Segmentation	CodeCode Available	2
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding	Mar 22, 2024	Action ClassificationAction Recognition	CodeCode Available	7
CLIP-VIS: Adapting CLIP for Open-Vocabulary Video Instance Segmentation	Mar 19, 2024	DecoderInstance Segmentation	CodeCode Available	1
UniVS: Unified and Universal Video Segmentation with Prompts as Queries	Feb 28, 2024	DecoderReferring Expression Segmentation	CodeCode Available	3
TDViT: Temporal Dilated Video Transformer for Dense Video Tasks	Feb 14, 2024	Instance Segmentationobject-detection	CodeCode Available	1
Spatio-temporal Prompting Network for Robust Video Feature Extraction	Feb 4, 2024	Instance Segmentationobject-detection	CodeCode Available	1
Instance Brownian Bridge as Texts for Open-vocabulary Video Instance Segmentation	Jan 18, 2024	Instance SegmentationSemantic Segmentation	CodeCode Available	1
DVIS++: Improved Decoupled Framework for Universal Video Segmentation	Dec 20, 2023	Contrastive LearningDenoising	CodeCode Available	1
General Object Foundation Model for Images and Videos at Scale	Dec 14, 2023	Instance SegmentationLong-tail Video Object Segmentation	CodeCode Available	3
TMT-VIS: Taxonomy-aware Multi-dataset Joint Training for Video Instance Segmentation	Dec 11, 2023	Instance SegmentationSemantic Segmentation	CodeCode Available	1
VISAGE: Video Instance Segmentation with Appearance-Guided Enhancement	Dec 8, 2023	Instance SegmentationSemantic Segmentation	CodeCode Available	1
Video Instance Matting	Nov 7, 2023	BinarizationImage Matting	CodeCode Available	1
CML-MOTS: Collaborative Multi-task Learning for Multi-Object Tracking and Segmentation	Nov 2, 2023	Autonomous DrivingInstance Segmentation	—Unverified	0
Deep Learning Techniques for Video Instance Segmentation: A Survey	Oct 19, 2023	Action RecognitionDeep Learning	—Unverified	0
TCOVIS: Temporally Consistent Online Video Instance Segmentation	Sep 21, 2023	Instance SegmentationSemantic Segmentation	CodeCode Available	0
NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation	Aug 29, 2023	Instance SegmentationSegmentation	—Unverified	0
VideoCutLER: Surprisingly Simple Unsupervised Video Instance Segmentation	Aug 28, 2023	Instance SegmentationOptical Flow Estimation	CodeCode Available	3
1st Place Solution for the 5th LSVOS Challenge: Video Instance Segmentation	Aug 28, 2023	Autonomous DrivingDenoising	CodeCode Available	1
1st Place Solution for CVPR2023 BURST Long Tail and Open World Challenges	Aug 8, 2023	Instance SegmentationSemantic Segmentation	—Unverified	0
CTVIS: Consistent Training for Online Video Instance Segmentation	Jul 24, 2023	Instance SegmentationSemantic Segmentation	CodeCode Available	1
Learning Dynamic Query Combinations for Transformer-based Object Detection and Segmentation	Jul 23, 2023	Instance SegmentationObject	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 3Next →

All datasets OVIS validation YouTube-VIS validation YouTube-VIS 2021 Youtube-VIS 2022 Validation BDD100K val HQ-YTVIS YouTube-VIS Youtube-VIS (trained with no video masks)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	CAVIS(VIT-L, Offline)	mask AP	57.1	—	Unverified
2	DVIS-DAQ(VIT-L, Offline)	mask AP	57.1	—	Unverified
3	DVIS++(VIT-L,Offline)	mask AP	53.4	—	Unverified
4	GLEE-Pro	mask AP	50.4	—	Unverified
5	DVIS(Swin-L, Offline)	mask AP	49.9	—	Unverified
6	DVIS++(VIT-L, Online)	mask AP	49.6	—	Unverified
7	UNINEXT (ViT-H, Online)	mask AP	49	—	Unverified
8	DVIS(Swin-L, Online)	mask AP	47.1	—	Unverified
9	CTVIS (Swin-L)	mask AP	46.9	—	Unverified
10	RefineVIS (Swin-L, offline)	mask AP	46	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CAVIS(ViT-L, Online)	mask AP	68.9	—	Unverified
2	DVIS++(ViT-L, Online)	mask AP	67.7	—	Unverified
3	DVIS	mask AP	64.9	—	Unverified
4	Tube-Link	mask AP	64.6	—	Unverified
5	MinVIS (Swin-L)	mask AP	61.6	—	Unverified
6	Mask2Former (Swin-L)	mask AP	60.4	—	Unverified
7	UniVS(Swin-L)	mask AP	60	—	Unverified
8	MDQE(Swin-L)	mask AP	59.9	—	Unverified
9	SeqFormer (Swin-L)	mask AP	59.3	—	Unverified
10	DeVIS (Swin-L)	mask AP	57.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CAVIS(VIT-L, Offline)	mask AP	65.3	—	Unverified
2	DVIS-DAQ(VIT-L, Offline)	mask AP	64.5	—	Unverified
3	DVIS++(VIT-L, Offline)	mask AP	63.9	—	Unverified
4	DVIS++(VIT-L, Online)	mask AP	62.3	—	Unverified
5	RefineVIS (Swin-L, online)	mask AP	61.4	—	Unverified
6	GRAtt-VIS (Swin-L)	mask AP	60.3	—	Unverified
7	TarViS (Swin-L)	mask AP	60.2	—	Unverified
8	DVIS(Swin-L)	mask AP	60.1	—	Unverified
9	GenVIS (Swin-L)	mask AP	60.1	—	Unverified
10	NOVIS (Swin-L)	mask AP	59.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVIS++(VIT-L)	mAP_L	50.9	—	Unverified
2	CAVIS (VIT-L)	mAP_L	48.6	—	Unverified
3	CTVIS (Swin-L)	mAP_L	46.4	—	Unverified
4	DVIS(Swin-L)	mAP_L	45.9	—	Unverified
5	CTVIS (ResNet-50)	mAP_L	39.4	—	Unverified
6	InstanceFormer (Swin)	mAP_L	26.3	—	Unverified
7	InstanceFormer (Resnet-50)	mAP_L	24.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PCAN	mMOTSA	27.4	—	Unverified
2	QDTrack-mots-fix	mMOTSA	23.5	—	Unverified
3	QDTrack-mots	mMOTSA	22.5	—	Unverified
4	MaskTrackRCNN	mMOTSA	12.3	—	Unverified
5	STEm-Seg	mMOTSA	12.2	—	Unverified
6	SortIoU	mMOTSA	10.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VMT (Swin-L)	Tube-Boundary AP	44.8	—	Unverified
2	SeqFormer (Swin-L)	Tube-Boundary AP	43.3	—	Unverified
3	VMT (R101)	Tube-Boundary AP	32.5	—	Unverified
4	VMT (R50)	Tube-Boundary AP	30.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Temporal ROI Align	mask AP	38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MaskFreeVIS	AP	55.3	—	Unverified