Instance Segmentation

Instance Segmentation is a computer vision task that involves identifying and separating individual objects within an image, including detecting the boundaries of each object and assigning a unique label to each object. The goal of instance segmentation is to produce a pixel-wise segmentation map of the image, where each pixel is assigned to a specific object instance.

Image Credit: Deep Occlusion-Aware Instance Segmentation with Overlapping BiLayers, CVPR'21

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 2262 papers

Title	Date	Tasks	Status	Hype
YOLO-World: Real-Time Open-Vocabulary Object Detection	Jan 30, 2024	Instance SegmentationLanguage Modeling	CodeCode Available	9
MambaOut: Do We Really Need Mamba for Vision?	May 13, 2024	image-classificationImage Classification	CodeCode Available	7
MambaVision: A Hybrid Mamba-Transformer Vision Backbone	Jul 10, 2024	Image ClassificationInstance Segmentation	CodeCode Available	7
YOLOR-Based Multi-Task Learning	Sep 29, 2023	Image CaptioningInstance Segmentation	CodeCode Available	5
Faster Segment Anything: Towards Lightweight SAM for Mobile Applications	Jun 25, 2023	CPUDecoder	CodeCode Available	5
4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities	Jun 13, 2024	Instance Segmentationmultimodal generation	CodeCode Available	5
EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything	Dec 1, 2023	Decoderimage-classification	CodeCode Available	4
RTMDet: An Empirical Study of Designing Real-Time Object Detectors	Dec 14, 2022	GPUInstance Segmentation	CodeCode Available	4
LISA++: An Improved Baseline for Reasoning Segmentation with Large Language Model	Dec 28, 2023	Instance SegmentationLanguage Modeling	CodeCode Available	4
EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction	May 29, 2022	Autonomous DrivingCPU	CodeCode Available	4
GLIPv2: Unifying Localization and Vision-Language Understanding	Jun 12, 2022	2D Object DetectionContrastive Learning	CodeCode Available	4
Architecture-Agnostic Masked Image Modeling -- From ViT back to CNN	May 27, 2022	Image ClassificationInstance Segmentation	CodeCode Available	4
InstanceDiffusion: Instance-level Control for Image Generation	Feb 5, 2024	Conditional Text-to-Image SynthesisImage Generation	CodeCode Available	4
Visual Attention Network	Feb 20, 2022	image-classificationImage Classification	CodeCode Available	4
OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels	Feb 27, 2025	Image ClassificationInstance Segmentation	CodeCode Available	4
Detectron2 Object Detection & Manipulating Images using Cartoonization	Aug 1, 2021	Autonomous VehiclesData Visualization	CodeCode Available	4
Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation	Jun 6, 2022	Image SegmentationInstance Segmentation	CodeCode Available	4
InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions	Nov 10, 2022	2D Object DetectionClassification	CodeCode Available	4
Panoptic Feature Pyramid Networks	Jan 8, 2019	Instance SegmentationPanoptic Segmentation	CodeCode Available	4
EmbodiedSAM: Online Segment Any 3D Thing in Real Time	Aug 21, 2024	3D Instance SegmentationGPU	CodeCode Available	4
A Simple Framework for Open-Vocabulary Segmentation and Detection	Mar 14, 2023	Instance SegmentationPanoptic Segmentation	CodeCode Available	3
ResNeSt: Split-Attention Networks	Apr 19, 2020	image-classificationImage Classification	CodeCode Available	3
Vision Transformers: From Semantic Segmentation to Dense Prediction	Jul 19, 2022	image-classificationImage Classification	CodeCode Available	3
XCiT: Cross-Covariance Image Transformers	Jun 17, 2021	image-classificationImage Classification	CodeCode Available	3
Vision Transformer Adapter for Dense Predictions	May 17, 2022	Instance SegmentationObject Detection	CodeCode Available	3
ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions	Mar 13, 2024	Instance SegmentationObject Detection	CodeCode Available	3
DETRs with Collaborative Hybrid Assignments Training	Nov 22, 2022	DecoderInstance Segmentation	CodeCode Available	3
PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition	Mar 26, 2024	Image ClassificationInstance Segmentation	CodeCode Available	3
Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling	Jan 9, 2023	2D Object DetectionContrastive Learning	CodeCode Available	3
UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface	Mar 3, 2025	Instance SegmentationReasoning Segmentation	CodeCode Available	3
OneFormer: One Transformer to Rule Universal Image Segmentation	Nov 10, 2022	Instance SegmentationPanoptic Segmentation	CodeCode Available	3
No time to train! Training-Free Reference-Based Instance Segmentation	Jul 3, 2025	Cross-Domain Few-Shot Object DetectionFew-Shot Object Detection	CodeCode Available	3
Open-YOLO 3D: Towards Fast and Accurate Open-Vocabulary 3D Instance Segmentation	Jun 4, 2024	2D Object Detection3D Instance Segmentation	CodeCode Available	3
Universal Instance Perception as Object Discovery and Retrieval	Mar 12, 2023	Described Object DetectionGeneralized Referring Expression Comprehension	CodeCode Available	3
InstanSeg: an embedding-based instance segmentation algorithm optimized for accurate, efficient and portable cell segmentation	Aug 28, 2024	Cell SegmentationGPU	CodeCode Available	3
General Object Foundation Model for Images and Videos at Scale	Dec 14, 2023	Instance SegmentationLong-tail Video Object Segmentation	CodeCode Available	3
Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment	Dec 1, 2023	Contrastive LearningFew-Shot Learning	CodeCode Available	3
A Survey of Camouflaged Object Detection and Beyond	Aug 26, 2024	Instance SegmentationObject	CodeCode Available	3
5%>100%: Breaking Performance Shackles of Full Fine-Tuning on Visual Recognition Tasks	Aug 15, 2024	image-classificationImage Classification	CodeCode Available	3
MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining	Mar 20, 2024	Aerial Scene ClassificationBuilding change detection for remote sensing images	CodeCode Available	3
Cut and Learn for Unsupervised Object Detection and Instance Segmentation	Jan 26, 2023	Instance Segmentationobject-detection	CodeCode Available	3
Nuclei instance segmentation and classification in histopathology images with StarDist	Mar 3, 2022	ClassificationInstance Segmentation	CodeCode Available	3
Generalized Decoding for Pixel, Image, and Language	Dec 21, 2022	DecoderImage Segmentation	CodeCode Available	3
VideoCutLER: Surprisingly Simple Unsupervised Video Instance Segmentation	Aug 28, 2023	Instance SegmentationOptical Flow Estimation	CodeCode Available	3
ECLIPSE: Efficient Continual Learning in Panoptic Segmentation with Visual Prompt Tuning	Mar 29, 2024	Continual LearningContinual Panoptic Segmentation	CodeCode Available	2
MogaNet: Multi-order Gated Aggregation Network	Nov 7, 2022	3D Human Pose EstimationImage Classification	CodeCode Available	2
E2EC: An End-to-End Contour-based Method for High-Quality High-Speed Instance Segmentation	Mar 8, 2022	GPUInstance Segmentation	CodeCode Available	2
A Simple Latent Diffusion Approach for Panoptic Segmentation and Mask Inpainting	Jan 18, 2024	Instance SegmentationInteractive Segmentation	CodeCode Available	2
ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks	Oct 8, 2019	Dimensionality Reductionimage-classification	CodeCode Available	2
Diving into Underwater: Segment Anything Model Guided Underwater Salient Instance Segmentation and A Large-scale Dataset	Jun 10, 2024	Instance SegmentationSalient Object Detection	CodeCode Available	2

Show:10 25 50

← PrevPage 1 of 46Next →

All datasets COCO test-dev COCO minival LVIS v1.0 val Cityscapes val ADE20K val ARMBench Occluded COCO OoDIS Separated COCO TBBR BDD100K val COCO val (panoptic labels)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	InternImage-H	AP50	80.8	—	Unverified
2	ResNeSt-200 (multi-scale)	AP50	70.2	—	Unverified
3	CenterMask + VoVNetV2-99 (multi-scale)	AP50	66.2	—	Unverified
4	CenterMask + VoVNetV2-57 (single-scale)	AP50	60.8	—	Unverified
5	Co-DETR	mask AP	57.1	—	Unverified
6	CBNetV2 (EVA02, single-scale)	mask AP	56.1	—	Unverified
7	ISDA (ResNet-50)	APL	55.7	—	Unverified
8	EVA	mask AP	55.5	—	Unverified
9	FD-SwinV2-G	mask AP	55.4	—	Unverified
10	Mask Frozen-DETR	mask AP	55.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	InternImage-B	GFLOPs	501	—	Unverified
2	Co-DETR	mask AP	56.6	—	Unverified
3	ViT-CoMer-L (Mask RCNN, DINOv2)	mask AP	55.9	—	Unverified
4	InternImage-H	mask AP	55.4	—	Unverified
5	EVA	mask AP	55	—	Unverified
6	Mask Frozen-DETR	mask AP	54.9	—	Unverified
7	MasK DINO (SwinL, multi-scale)	mask AP	54.5	—	Unverified
8	GLEE-Pro	mask AP	54.2	—	Unverified
9	ViT-Adapter-L (HTC++, BEiTv2, O365, multi-scale)	mask AP	54.2	—	Unverified
10	SwinV2-G (HTC++)	mask AP	53.7	—	Unverified