Referring Expression Segmentation

The task aims at labeling the pixels of an image or video that represent an object instance referred by a linguistic expression. In particular, the referring expression (RE) must allow the identification of an individual object in a discourse or scene (the referent). REs unambiguously identify the target instance.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 145 papers

Title	Date	Tasks	Status	Hype
Referring Image Segmentation Using Text Supervision	Aug 28, 2023	Image SegmentationObject Localization	CodeCode Available	1
Spectrum-guided Multi-granularity Referring Video Object Segmentation	Jul 25, 2023	ObjectReferring Expression Segmentation	CodeCode Available	1
Bridging Vision and Language Encoders: Parameter-Efficient Tuning for Referring Image Segmentation	Jul 21, 2023	DecoderImage Segmentation	CodeCode Available	1
OnlineRefer: A Simple Online Baseline for Referring Video Object Segmentation	Jul 18, 2023	Referring Expression SegmentationReferring Video Object Segmentation	CodeCode Available	1
LoSh: Long-Short Text Joint Prediction Network for Referring Video Object Segmentation	Jun 14, 2023	Referring Expression SegmentationReferring Video Object Segmentation	CodeCode Available	1
SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation	May 26, 2023	cross-modal alignmentObject	CodeCode Available	1
Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation	May 25, 2023	ObjectReferring Expression Segmentation	CodeCode Available	1
Advancing Referring Expression Segmentation Beyond Single Image	May 21, 2023	Co-Salient Object DetectionObject	CodeCode Available	1
Zero-shot Referring Image Segmentation with Global-Local Context Features	Mar 31, 2023	Image SegmentationReferring Expression	CodeCode Available	1
PolyFormer: Referring Image Segmentation as Sequential Polygon Generation	Feb 14, 2023	DecoderImage Segmentation	CodeCode Available	1
Multi-Attention Network for Compressed Video Referring Object Segmentation	Jul 26, 2022	ObjectReferring Expression Segmentation	CodeCode Available	1
Towards Robust Referring Video Object Segmentation with Cyclic Relational Consensus	Jul 4, 2022	Referring Expression SegmentationReferring Video Object Segmentation	CodeCode Available	1
Modeling Motion with Multi-Modal Features for Text-Based Video Segmentation	Apr 6, 2022	Optical Flow EstimationReferring Expression Segmentation	CodeCode Available	1
SeqTR: A Simple yet Universal Network for Visual Grounding	Mar 30, 2022	DecoderReferring Expression	CodeCode Available	1
Local-Global Context Aware Transformer for Language-Guided Video Segmentation	Mar 18, 2022	Referring Expression SegmentationReferring Video Object Segmentation	CodeCode Available	1
Image Segmentation Using Text and Image Prompts	Dec 18, 2021	DecoderImage Segmentation	CodeCode Available	1
LAVT: Language-Aware Vision Transformer for Referring Image Segmentation	Dec 4, 2021	DecoderGeneralized Referring Expression Segmentation	CodeCode Available	1
CRIS: CLIP-Driven Referring Image Segmentation	Nov 30, 2021	Contrastive LearningDecoder	CodeCode Available	1
End-to-End Referring Video Object Segmentation with Multimodal Transformers	Nov 29, 2021	Inductive BiasInstance Segmentation	CodeCode Available	1
Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts	Nov 16, 2021	Cross-Modal RetrievalImage Captioning	CodeCode Available	1
Vision-Language Transformer and Query Generation for Referring Segmentation	Aug 12, 2021	DecoderGeneralized Referring Expression Comprehension	CodeCode Available	1
SynthRef: Generation of Synthetic Referring Expressions for Object Segmentation	Jun 8, 2021	Objectobject-detection	CodeCode Available	1
Referring Transformer: A One-step Approach to Multi-task Visual Grounding	Jun 6, 2021	DecoderReferring Expression	CodeCode Available	1
Cross-Modal Progressive Comprehension for Referring Segmentation	May 15, 2021	AttributeImage Segmentation	CodeCode Available	1
MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding	Apr 26, 2021	Generalized Referring Expression ComprehensionPhrase Grounding	CodeCode Available	1

Show:10 25 50

← PrevPage 3 of 6Next →

All datasets RefCoCo val RefCOCO testA Refer-YouTube-VOS (2021 public validation)RefCOCO+ test B A2D Sentences RefCOCOg-val J-HMDB DAVIS 2017 (val)RefCOCOg-test RefCOCO testB PhraseCut RefCOCO

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeRIS-L	Overall IoU	85.41	—	Unverified
2	HyperSeg	Overall IoU	84.8	—	Unverified
3	PSALM	Overall IoU	83.6	—	Unverified
4	MLCD-Seg-7B	Overall IoU	83.6	—	Unverified
5	HIPIE	Overall IoU	82.8	—	Unverified
6	EVF-SAM	Overall IoU	82.4	—	Unverified
7	UNINEXT-H	Overall IoU	82.19	—	Unverified
8	UniLSeg-100	Overall IoU	81.74	—	Unverified
9	DETRIS	Overall IoU	81	—	Unverified
10	C3VG	Overall IoU	80.89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeRIS-L	Overall IoU	86.49	—	Unverified
2	HyperSeg	Overall IoU	85.7	—	Unverified
3	MLCD-Seg-7B	Overall IoU	85.3	—	Unverified
4	EVF-SAM	Overall IoU	84.2	—	Unverified
5	HyperSeg	Overall IoU	83.5	—	Unverified
6	C3VG	Overall IoU	83.18	—	Unverified
7	MLCD-Seg-7B	Overall IoU	82.9	—	Unverified
8	DeRIS-L	Overall IoU	82.34	—	Unverified
9	DETRIS	Overall IoU	81.9	—	Unverified
10	MaskRIS (Swin-B, combined DB)	Overall IoU	80.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MPG-SAM 2	J&F	73.9	—	Unverified
2	VRS-HQ (Chat-UniVi-13B)	J&F	71	—	Unverified
3	GLEE-Pro	J&F	70.6	—	Unverified
4	UNINEXT-H	J&F	70.1	—	Unverified
5	ReferDINO (Swin-B)	J&F	69.3	—	Unverified
6	MUTR	J&F	68.4	—	Unverified
7	VLP (VLMo-L)	J&F	67.6	—	Unverified
8	UniRef-L (Swin-L)	J&F	67.4	—	Unverified
9	HTR (Pre-training)	J&F	67.1	—	Unverified
10	DsHmp (Video-Swin-Base)	J&F	67.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeRIS-L	Mean IoU	78.59	—	Unverified
2	MLCD-Seg-7B	Overall IoU	75.6	—	Unverified
3	HyperSeg	Overall IoU	75.2	—	Unverified
4	EVF-SAM	Overall IoU	71.9	—	Unverified
5	DETRIS	Overall IoU	70.2	—	Unverified
6	C3VG	Overall IoU	68.95	—	Unverified
7	UniLSeg-100	Overall IoU	68.15	—	Unverified
8	UniLSeg-20	Overall IoU	66.99	—	Unverified
9	UNINEXT-H	Overall IoU	66.22	—	Unverified
10	GROUNDHOG	Overall IoU	64.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HINet	IoU overall	0.68	—	Unverified
2	RefVOS	IoU overall	0.67	—	Unverified
3	ClawCraneNet	IoU overall	0.64	—	Unverified
4	CMSA+CFSA	IoU overall	0.62	—	Unverified
5	RefVOS	IoU overall	0.6	—	Unverified
6	SgMg (Video-Swin-B)	AP	0.59	—	Unverified
7	SOC (Video-Swin-B)	AP	0.57	—	Unverified
8	ReferFormer (Video-Swin-B)	AP	0.55	—	Unverified
9	SOC (Video-Swin-T)	AP	0.5	—	Unverified
10	MANET	AP	0.47	—	Unverified