Video Instance Segmentation

The goal of video instance segmentation is simultaneous detection, segmentation and tracking of instances in videos. In words, it is the first time that the image instance segmentation problem is extended to the video domain.

To facilitate research on this new task, a large-scale benchmark called YouTube-VIS, which consists of 2,883 high-resolution YouTube videos, a 40-category label set and 131k high-quality instance masks is built.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 148 papers

Title	Date	Tasks	Status	Hype	Score
VISOLO: Grid-Based Space-Time Aggregation for Efficient Online Video Instance Segmentation	Dec 8, 2021	Instance SegmentationSemantic Segmentation	CodeCode Available	1	5
VITA: Video Instance Segmentation via Object Token Association	Jun 9, 2022	GPUInstance Segmentation	CodeCode Available	1	5
Object Propagation via Inter-Frame Attentions for Temporally Stable Video Instance Segmentation	Nov 15, 2021	Instance SegmentationSegmentation	CodeCode Available	0	5
One-stage Video Instance Segmentation: From Frame-in Frame-out to Clip-in Clip-out	Mar 12, 2022	Instance SegmentationSemantic Segmentation	CodeCode Available	0	5
ThinkVideo: High-Quality Reasoning Video Segmentation with Chain of Thoughts	May 24, 2025	Image SegmentationInstance Segmentation	CodeCode Available	0	5
PM-VIS+: High-Performance Video Instance Segmentation without Video Annotation	Jun 28, 2024	Instance SegmentationSegmentation	CodeCode Available	0	5
Robust Online Video Instance Segmentation with Track Queries	Nov 16, 2022	Image SegmentationInstance Segmentation	CodeCode Available	0	5
Deformable VisTR: Spatio temporal deformable attention for video instance segmentation	Mar 12, 2022	GPUInstance Segmentation	CodeCode Available	0	5
Towards Real-Time Open-Vocabulary Video Instance Segmentation	Dec 5, 2024	Instance SegmentationSemantic Segmentation	CodeCode Available	0	5
Efficient Video Object Segmentation via Network Modulation	Feb 4, 2018	ObjectSegmentation	CodeCode Available	0	5
End-to-end video instance segmentation via spatial-temporal graph neural networks	Mar 7, 2022	Graph Neural NetworkInstance Segmentation	CodeCode Available	0	5
Video Instance Segmentation in an Open-World	Apr 3, 2023	Instance SegmentationSemantic Segmentation	CodeCode Available	0	5
False Negative Reduction in Video Instance Segmentation using Uncertainty Estimates	Jun 28, 2021	Depth EstimationInstance Segmentation	CodeCode Available	0	5
Foundation Models for Amodal Video Instance Segmentation in Automated Driving	Sep 21, 2024	Amodal Instance SegmentationInstance Segmentation	CodeCode Available	0	5
GRAtt-VIS: Gated Residual Attention for Auto Rectifying Video Instance Segmentation	May 26, 2023	Instance SegmentationSemantic Segmentation	CodeCode Available	0	5
Two-Level Temporal Relation Model for Online Video Instance Segmentation	Oct 30, 2022	Graph Neural NetworkInstance Segmentation	CodeCode Available	0	5
Improving Video Instance Segmentation by Light-weight Temporal Uncertainty Estimates	Dec 14, 2020	Instance Segmentationobject-detection	CodeCode Available	0	5
Learning a Spatio-Temporal Embedding for Video Instance Segmentation	Dec 19, 2019	Instance SegmentationSemantic Segmentation	CodeCode Available	0	5
TCOVIS: Temporally Consistent Online Video Instance Segmentation	Sep 21, 2023	Instance SegmentationSemantic Segmentation	CodeCode Available	0	5
Temporal RoI Align for Video Object Recognition	Sep 8, 2021	Instance SegmentationObject	CodeCode Available	0	5
MSN: Efficient Online Mask Selection Network for Video Instance Segmentation	Jun 19, 2021	Instance SegmentationSegmentation	CodeCode Available	0	5
Learning Video Instance Segmentation with Recurrent Graph Neural Networks	Dec 7, 2020	Graph Neural NetworkInstance Segmentation	—Unverified	0	0
SAM2Auto: Auto Annotation Using FLASH	Jun 9, 2025	Instance SegmentationObject	—Unverified	0	0
SDI-Paste: Synthetic Dynamic Instance Copy-Paste for Video Instance Segmentation	Oct 16, 2024	Data AugmentationInstance Segmentation	—Unverified	0	0
Deep Learning Techniques for Video Instance Segmentation: A Survey	Oct 19, 2023	Action RecognitionDeep Learning	—Unverified	0	0

Show:10 25 50

← PrevPage 4 of 6Next →

All datasets OVIS validation YouTube-VIS validation YouTube-VIS 2021 Youtube-VIS 2022 Validation BDD100K val HQ-YTVIS YouTube-VIS Youtube-VIS (trained with no video masks)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	CAVIS(VIT-L, Offline)	mask AP	57.1	—	Unverified
2	DVIS-DAQ(VIT-L, Offline)	mask AP	57.1	—	Unverified
3	DVIS++(VIT-L,Offline)	mask AP	53.4	—	Unverified
4	GLEE-Pro	mask AP	50.4	—	Unverified
5	DVIS(Swin-L, Offline)	mask AP	49.9	—	Unverified
6	DVIS++(VIT-L, Online)	mask AP	49.6	—	Unverified
7	UNINEXT (ViT-H, Online)	mask AP	49	—	Unverified
8	DVIS(Swin-L, Online)	mask AP	47.1	—	Unverified
9	CTVIS (Swin-L)	mask AP	46.9	—	Unverified
10	RefineVIS (Swin-L, offline)	mask AP	46	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CAVIS(ViT-L, Online)	mask AP	68.9	—	Unverified
2	DVIS++(ViT-L, Online)	mask AP	67.7	—	Unverified
3	DVIS	mask AP	64.9	—	Unverified
4	Tube-Link	mask AP	64.6	—	Unverified
5	MinVIS (Swin-L)	mask AP	61.6	—	Unverified
6	Mask2Former (Swin-L)	mask AP	60.4	—	Unverified
7	UniVS(Swin-L)	mask AP	60	—	Unverified
8	MDQE(Swin-L)	mask AP	59.9	—	Unverified
9	SeqFormer (Swin-L)	mask AP	59.3	—	Unverified
10	DeVIS (Swin-L)	mask AP	57.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CAVIS(VIT-L, Offline)	mask AP	65.3	—	Unverified
2	DVIS-DAQ(VIT-L, Offline)	mask AP	64.5	—	Unverified
3	DVIS++(VIT-L, Offline)	mask AP	63.9	—	Unverified
4	DVIS++(VIT-L, Online)	mask AP	62.3	—	Unverified
5	RefineVIS (Swin-L, online)	mask AP	61.4	—	Unverified
6	GRAtt-VIS (Swin-L)	mask AP	60.3	—	Unverified
7	TarViS (Swin-L)	mask AP	60.2	—	Unverified
8	DVIS(Swin-L)	mask AP	60.1	—	Unverified
9	GenVIS (Swin-L)	mask AP	60.1	—	Unverified
10	NOVIS (Swin-L)	mask AP	59.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVIS++(VIT-L)	mAP_L	50.9	—	Unverified
2	CAVIS (VIT-L)	mAP_L	48.6	—	Unverified
3	CTVIS (Swin-L)	mAP_L	46.4	—	Unverified
4	DVIS(Swin-L)	mAP_L	45.9	—	Unverified
5	CTVIS (ResNet-50)	mAP_L	39.4	—	Unverified
6	InstanceFormer (Swin)	mAP_L	26.3	—	Unverified
7	InstanceFormer (Resnet-50)	mAP_L	24.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PCAN	mMOTSA	27.4	—	Unverified
2	QDTrack-mots-fix	mMOTSA	23.5	—	Unverified
3	QDTrack-mots	mMOTSA	22.5	—	Unverified
4	MaskTrackRCNN	mMOTSA	12.3	—	Unverified
5	STEm-Seg	mMOTSA	12.2	—	Unverified
6	SortIoU	mMOTSA	10.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VMT (Swin-L)	Tube-Boundary AP	44.8	—	Unverified
2	SeqFormer (Swin-L)	Tube-Boundary AP	43.3	—	Unverified
3	VMT (R101)	Tube-Boundary AP	32.5	—	Unverified
4	VMT (R50)	Tube-Boundary AP	30.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Temporal ROI Align	mask AP	38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MaskFreeVIS	AP	55.3	—	Unverified