Video Instance Segmentation

The goal of video instance segmentation is simultaneous detection, segmentation and tracking of instances in videos. In words, it is the first time that the image instance segmentation problem is extended to the video domain.

To facilitate research on this new task, a large-scale benchmark called YouTube-VIS, which consists of 2,883 high-resolution YouTube videos, a 40-category label set and 131k high-quality instance masks is built.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 148 papers

Title	Date	Tasks	Status	Hype	Score
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding	Mar 22, 2024	Action ClassificationAction Recognition	CodeCode Available	7	5
Segment Anything Meets Point Tracking	Jul 3, 2023	Interactive Video Object SegmentationObject	CodeCode Available	3	5
UniVS: Unified and Universal Video Segmentation with Prompts as Queries	Feb 28, 2024	DecoderReferring Expression Segmentation	CodeCode Available	3	5
VideoCutLER: Surprisingly Simple Unsupervised Video Instance Segmentation	Aug 28, 2023	Instance SegmentationOptical Flow Estimation	CodeCode Available	3	5
General Object Foundation Model for Images and Videos at Scale	Dec 14, 2023	Instance SegmentationLong-tail Video Object Segmentation	CodeCode Available	3	5
Universal Instance Perception as Object Discovery and Retrieval	Mar 12, 2023	Described Object DetectionGeneralized Referring Expression Comprehension	CodeCode Available	3	5
MinVIS: A Minimal Video Instance Segmentation Framework without Video-based Training	Aug 3, 2022	Instance SegmentationSegmentation	CodeCode Available	2	5
Language as Queries for Referring Video Object Segmentation	Jan 3, 2022	ObjectObject Tracking	CodeCode Available	2	5
Revisiting Contrastive Methods for Unsupervised Learning of Visual Representations	Jun 10, 2021	Instance Segmentationobject-detection	CodeCode Available	2	5
DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries	Mar 29, 2024	ObjectVideo Instance Segmentation	CodeCode Available	2	5
Mask-Free Video Instance Segmentation	Mar 28, 2023	Instance SegmentationOptical Flow Estimation	CodeCode Available	2	5
Occlusion-Aware Instance Segmentation via BiLayer Network Architectures	Aug 8, 2022	Human Instance SegmentationInstance Segmentation	CodeCode Available	2	5
Temporally Efficient Vision Transformer for Video Instance Segmentation	Apr 18, 2022	Instance SegmentationSemantic Segmentation	CodeCode Available	2	5
Mask2Former for Video Instance Segmentation	Dec 20, 2021	Image SegmentationInstance Segmentation	CodeCode Available	2	5
In Defense of Online Models for Video Instance Segmentation	Jul 21, 2022	Contrastive LearningInstance Segmentation	CodeCode Available	2	5
Video Instance Segmentation	May 12, 2019	Instance SegmentationSegmentation	CodeCode Available	2	5
Context-Aware Video Instance Segmentation	Jul 3, 2024	Instance SegmentationPanoptic Segmentation	CodeCode Available	2	5
Simple Online and Realtime Tracking with a Deep Association Metric	Mar 21, 2017	3D Multi-Object TrackingLarge-Scale Person Re-Identification	CodeCode Available	1	5
SG-Net: Spatial Granularity Network for One-Stage Video Instance Segmentation	Mar 18, 2021	Head DetectionInstance Segmentation	CodeCode Available	1	5
SipMask: Spatial Information Preservation for Fast Image and Video Instance Segmentation	Jul 29, 2020	Instance Segmentationobject-detection	CodeCode Available	1	5
CTVIS: Consistent Training for Online Video Instance Segmentation	Jul 24, 2023	Instance SegmentationSemantic Segmentation	CodeCode Available	1	5
Crossover Learning for Fast Online Video Instance Segmentation	Apr 13, 2021	Instance SegmentationSemantic Segmentation	CodeCode Available	1	5
UVO Challenge on Video-based Open-World Segmentation 2021: 1st Place Solution	Oct 22, 2021	Instance SegmentationOptical Flow Estimation	CodeCode Available	1	5
MDQE: Mining Discriminative Query Embeddings to Segment Occluded Instances on Challenging Videos	Mar 25, 2023	Instance SegmentationSemantic Segmentation	CodeCode Available	1	5
RankSeg: Adaptive Pixel Classification with Image Category Ranking for Segmentation	Mar 8, 2022	ClassificationInstance Segmentation	CodeCode Available	1	5
D2Conv3D: Dynamic Dilated Convolutions for Object Segmentation in Videos	Nov 15, 2021	Multi-Object Tracking and SegmentationSegmentation	CodeCode Available	1	5
MouseSIS: A Frames-and-Events Dataset for Space-Time Instance Segmentation of Mice	Sep 5, 2024	Instance SegmentationSegmentation	CodeCode Available	1	5
Spatial Feature Calibration and Temporal Fusion for Effective One-stage Video Instance Segmentation	Apr 6, 2021	Instance SegmentationSegmentation	CodeCode Available	1	5
Occluded Video Instance Segmentation: A Benchmark	Feb 2, 2021	Instance SegmentationSegmentation	CodeCode Available	1	5
DeVIS: Making Deformable Transformers Work for Video Instance Segmentation	Jul 22, 2022	Instance Segmentationobject-detection	CodeCode Available	1	5
Real-time Human-Centric Segmentation for Complex Video Scenes	Aug 16, 2021	Human Instance SegmentationInstance Segmentation	CodeCode Available	1	5
Context-Aware Relative Object Queries To Unify Video Instance and Panoptic Segmentation	Jan 1, 2023	Instance SegmentationMulti-Object Tracking	CodeCode Available	1	5
Prototypical Cross-Attention Networks for Multiple Object Tracking and Segmentation	Jun 22, 2021	Multi-Object Tracking and SegmentationMultiple Object Track and Segmentation	CodeCode Available	1	5
Improving Weakly-supervised Video Instance Segmentation by Leveraging Spatio-temporal Consistency	Aug 29, 2024	Instance SegmentationSegmentation	CodeCode Available	1	5
Instance-wise Depth and Motion Learning from Monocular Videos	Dec 19, 2019	Instance SegmentationMonocular Depth Estimation	CodeCode Available	1	5
Instances as Queries	May 5, 2021	Instance SegmentationObject	CodeCode Available	1	5
Instance As Identity: A Generic Online Paradigm for Video Instance Segmentation	Aug 5, 2022	Instance SegmentationSemantic Segmentation	CodeCode Available	1	5
Instance Brownian Bridge as Texts for Open-vocabulary Video Instance Segmentation	Jan 18, 2024	Instance SegmentationSemantic Segmentation	CodeCode Available	1	5
CLIP-VIS: Adapting CLIP for Open-Vocabulary Video Instance Segmentation	Mar 19, 2024	DecoderInstance Segmentation	CodeCode Available	1	5
CompFeat: Comprehensive Feature Aggregation for Video Instance Segmentation	Dec 7, 2020	Instance SegmentationSegmentation	CodeCode Available	1	5
End-to-End Video Instance Segmentation with Transformers	Nov 30, 2020	Instance SegmentationSegmentation	CodeCode Available	1	5
A Generalized Framework for Video Instance Segmentation	Nov 16, 2022	Instance SegmentationSemantic Segmentation	CodeCode Available	1	5
DVIS++: Improved Decoupled Framework for Universal Video Segmentation	Dec 20, 2023	Contrastive LearningDenoising	CodeCode Available	1	5
Improving Video Instance Segmentation via Temporal Pyramid Routing	Jul 28, 2021	Instance SegmentationPanoptic Segmentation	CodeCode Available	1	5
Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection Consistency	Feb 4, 2021	Instance SegmentationMonocular Depth Estimation	CodeCode Available	1	5
DVIS: Decoupled Video Instance Segmentation Framework	Jun 6, 2023	Autonomous DrivingGPU	CodeCode Available	1	5
1st Place Solution for the 5th LSVOS Challenge: Video Instance Segmentation	Aug 28, 2023	Autonomous DrivingDenoising	CodeCode Available	1	5
Learning Dynamic Query Combinations for Transformer-based Object Detection and Segmentation	Jul 23, 2023	Instance SegmentationObject	CodeCode Available	1	5
Implicit Feature Refinement for Instance Segmentation	Dec 9, 2021	Instance SegmentationObject Recognition	CodeCode Available	1	5
Do Different Tracking Tasks Require Different Appearance Models?	Jul 5, 2021	Multi-Object TrackingMulti-Object Tracking and Segmentation	CodeCode Available	1	5

Show:10 25 50

← PrevPage 1 of 3Next →

All datasets OVIS validation YouTube-VIS validation YouTube-VIS 2021 Youtube-VIS 2022 Validation BDD100K val HQ-YTVIS YouTube-VIS Youtube-VIS (trained with no video masks)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	CAVIS(VIT-L, Offline)	mask AP	57.1	—	Unverified
2	DVIS-DAQ(VIT-L, Offline)	mask AP	57.1	—	Unverified
3	DVIS++(VIT-L,Offline)	mask AP	53.4	—	Unverified
4	GLEE-Pro	mask AP	50.4	—	Unverified
5	DVIS(Swin-L, Offline)	mask AP	49.9	—	Unverified
6	DVIS++(VIT-L, Online)	mask AP	49.6	—	Unverified
7	UNINEXT (ViT-H, Online)	mask AP	49	—	Unverified
8	DVIS(Swin-L, Online)	mask AP	47.1	—	Unverified
9	CTVIS (Swin-L)	mask AP	46.9	—	Unverified
10	RefineVIS (Swin-L, offline)	mask AP	46	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CAVIS(ViT-L, Online)	mask AP	68.9	—	Unverified
2	DVIS++(ViT-L, Online)	mask AP	67.7	—	Unverified
3	DVIS	mask AP	64.9	—	Unverified
4	Tube-Link	mask AP	64.6	—	Unverified
5	MinVIS (Swin-L)	mask AP	61.6	—	Unverified
6	Mask2Former (Swin-L)	mask AP	60.4	—	Unverified
7	UniVS(Swin-L)	mask AP	60	—	Unverified
8	MDQE(Swin-L)	mask AP	59.9	—	Unverified
9	SeqFormer (Swin-L)	mask AP	59.3	—	Unverified
10	DeVIS (Swin-L)	mask AP	57.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CAVIS(VIT-L, Offline)	mask AP	65.3	—	Unverified
2	DVIS-DAQ(VIT-L, Offline)	mask AP	64.5	—	Unverified
3	DVIS++(VIT-L, Offline)	mask AP	63.9	—	Unverified
4	DVIS++(VIT-L, Online)	mask AP	62.3	—	Unverified
5	RefineVIS (Swin-L, online)	mask AP	61.4	—	Unverified
6	GRAtt-VIS (Swin-L)	mask AP	60.3	—	Unverified
7	TarViS (Swin-L)	mask AP	60.2	—	Unverified
8	DVIS(Swin-L)	mask AP	60.1	—	Unverified
9	GenVIS (Swin-L)	mask AP	60.1	—	Unverified
10	NOVIS (Swin-L)	mask AP	59.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVIS++(VIT-L)	mAP_L	50.9	—	Unverified
2	CAVIS (VIT-L)	mAP_L	48.6	—	Unverified
3	CTVIS (Swin-L)	mAP_L	46.4	—	Unverified
4	DVIS(Swin-L)	mAP_L	45.9	—	Unverified
5	CTVIS (ResNet-50)	mAP_L	39.4	—	Unverified
6	InstanceFormer (Swin)	mAP_L	26.3	—	Unverified
7	InstanceFormer (Resnet-50)	mAP_L	24.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PCAN	mMOTSA	27.4	—	Unverified
2	QDTrack-mots-fix	mMOTSA	23.5	—	Unverified
3	QDTrack-mots	mMOTSA	22.5	—	Unverified
4	MaskTrackRCNN	mMOTSA	12.3	—	Unverified
5	STEm-Seg	mMOTSA	12.2	—	Unverified
6	SortIoU	mMOTSA	10.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VMT (Swin-L)	Tube-Boundary AP	44.8	—	Unverified
2	SeqFormer (Swin-L)	Tube-Boundary AP	43.3	—	Unverified
3	VMT (R101)	Tube-Boundary AP	32.5	—	Unverified
4	VMT (R50)	Tube-Boundary AP	30.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Temporal ROI Align	mask AP	38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MaskFreeVIS	AP	55.3	—	Unverified