Referring Expression Segmentation

The task aims at labeling the pixels of an image or video that represent an object instance referred by a linguistic expression. In particular, the referring expression (RE) must allow the identification of an individual object in a discourse or scene (the referent). REs unambiguously identify the target instance.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–125 of 145 papers

Title	Date	Tasks	Status
GROUNDHOG: Grounding Large Language Models to Holistic Segmentation	Feb 26, 2024	Causal Language ModelingGeneralized Referring Expression Segmentation	—Unverified
RESMatch: Referring Expression Segmentation in a Semi-Supervised Manner	Feb 8, 2024	Image SegmentationPseudo Label	—Unverified
Generalizable Entity Grounding via Assistance of Large Language Model	Feb 4, 2024	Language ModelingLanguage Modelling	—Unverified
Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects	Dec 8, 2023	Image Captioningobject-detection	—Unverified
InstructSeq: Unifying Vision Tasks with Instruction-conditioned Multi-modal Sequence Generation	Nov 30, 2023	Image CaptioningReferring Expression	CodeCode Available
Towards Omni-supervised Referring Expression Segmentation	Nov 1, 2023	Referring ExpressionReferring Expression Segmentation	CodeCode Available
CLIPUNetr: Assisting Human-robot Interface for Uncalibrated Visual Servoing Control with CLIP-driven Referring Expression Segmentation	Sep 17, 2023	DecoderReferring Expression	—Unverified
EAVL: Explicitly Align Vision and Language for Referring Image Segmentation	Aug 18, 2023	Image SegmentationReferring Expression Segmentation	—Unverified
Expression Prompt Collaboration Transformer for Universal Referring Video Object Segmentation	Aug 8, 2023	Contrastive LearningObject	CodeCode Available
WiCo: Win-win Cooperation of Bottom-up and Top-down Referring Image Segmentation	Jun 19, 2023	cross-modal alignmentImage Segmentation	—Unverified
Extending CLIP's Image-Text Alignment to Referring Image Segmentation	Jun 14, 2023	Image SegmentationReferring Expression Segmentation	—Unverified
Meta Compositional Referring Expression Segmentation	Apr 10, 2023	Meta-LearningReferring Expression	—Unverified
Learning To Segment Every Referring Object Point by Point	Jan 1, 2023	ObjectReferring Expression	CodeCode Available
Segment Every Reference Object in Spatial and Temporal Spaces	Jan 1, 2023	Image SegmentationObject	—Unverified
Fully and Weakly Supervised Referring Expression Segmentation with End-to-End Learning	Dec 17, 2022	PositionReferring Expression	—Unverified
A Unified Mutual Supervision Framework for Referring Expression Segmentation and Generation	Nov 15, 2022	Reference Expression GenerationReferring Expression	—Unverified
Exploring Modulated Detection Transformer as a Tool for Action Recognition in Videos	Sep 21, 2022	Action DetectionAction Recognition	CodeCode Available
Weakly-supervised segmentation of referring expressions	May 10, 2022	Image SegmentationReferring Expression	—Unverified
ReSTR: Convolution-free Referring Image Segmentation Using Transformers	Mar 31, 2022	Image SegmentationReferring Expression Segmentation	—Unverified
Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation	Mar 30, 2022	Referring Expression SegmentationVideo Segmentation	—Unverified
Multi-Level Representation Learning With Semantic Alignment for Referring Video Object Segmentation	Jan 1, 2022	ObjectReferring Expression Segmentation	—Unverified
Hierarchical interaction network for video object segmentation from referring expressions	Nov 22, 2021	Optical Flow EstimationReferring Expression Segmentation	—Unverified
MaIL: A Unified Mask-Image-Language Trimodal Network for Referring Image Segmentation	Nov 21, 2021	DecoderImage Segmentation	—Unverified
Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor Segmentation	May 14, 2021	Decoderfeature selection	—Unverified
Comprehensive Multi-Modal Interactions for Referring Image Segmentation	Apr 21, 2021	Image SegmentationReferring Expression Segmentation	CodeCode Available

Show:10 25 50

← PrevPage 5 of 6Next →

All datasets RefCoCo val RefCOCO testA Refer-YouTube-VOS (2021 public validation)RefCOCO+ test B A2D Sentences RefCOCOg-val J-HMDB DAVIS 2017 (val)RefCOCOg-test RefCOCO testB PhraseCut RefCOCO

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeRIS-L	Overall IoU	85.41	—	Unverified
2	HyperSeg	Overall IoU	84.8	—	Unverified
3	PSALM	Overall IoU	83.6	—	Unverified
4	MLCD-Seg-7B	Overall IoU	83.6	—	Unverified
5	HIPIE	Overall IoU	82.8	—	Unverified
6	EVF-SAM	Overall IoU	82.4	—	Unverified
7	UNINEXT-H	Overall IoU	82.19	—	Unverified
8	UniLSeg-100	Overall IoU	81.74	—	Unverified
9	DETRIS	Overall IoU	81	—	Unverified
10	C3VG	Overall IoU	80.89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeRIS-L	Overall IoU	86.49	—	Unverified
2	HyperSeg	Overall IoU	85.7	—	Unverified
3	MLCD-Seg-7B	Overall IoU	85.3	—	Unverified
4	EVF-SAM	Overall IoU	84.2	—	Unverified
5	HyperSeg	Overall IoU	83.5	—	Unverified
6	C3VG	Overall IoU	83.18	—	Unverified
7	MLCD-Seg-7B	Overall IoU	82.9	—	Unverified
8	DeRIS-L	Overall IoU	82.34	—	Unverified
9	DETRIS	Overall IoU	81.9	—	Unverified
10	MaskRIS (Swin-B, combined DB)	Overall IoU	80.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MPG-SAM 2	J&F	73.9	—	Unverified
2	VRS-HQ (Chat-UniVi-13B)	J&F	71	—	Unverified
3	GLEE-Pro	J&F	70.6	—	Unverified
4	UNINEXT-H	J&F	70.1	—	Unverified
5	ReferDINO (Swin-B)	J&F	69.3	—	Unverified
6	MUTR	J&F	68.4	—	Unverified
7	VLP (VLMo-L)	J&F	67.6	—	Unverified
8	UniRef-L (Swin-L)	J&F	67.4	—	Unverified
9	HTR (Pre-training)	J&F	67.1	—	Unverified
10	DsHmp (Video-Swin-Base)	J&F	67.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeRIS-L	Mean IoU	78.59	—	Unverified
2	MLCD-Seg-7B	Overall IoU	75.6	—	Unverified
3	HyperSeg	Overall IoU	75.2	—	Unverified
4	EVF-SAM	Overall IoU	71.9	—	Unverified
5	DETRIS	Overall IoU	70.2	—	Unverified
6	C3VG	Overall IoU	68.95	—	Unverified
7	UniLSeg-100	Overall IoU	68.15	—	Unverified
8	UniLSeg-20	Overall IoU	66.99	—	Unverified
9	UNINEXT-H	Overall IoU	66.22	—	Unverified
10	GROUNDHOG	Overall IoU	64.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HINet	IoU overall	0.68	—	Unverified
2	RefVOS	IoU overall	0.67	—	Unverified
3	ClawCraneNet	IoU overall	0.64	—	Unverified
4	CMSA+CFSA	IoU overall	0.62	—	Unverified
5	RefVOS	IoU overall	0.6	—	Unverified
6	SgMg (Video-Swin-B)	AP	0.59	—	Unverified
7	SOC (Video-Swin-B)	AP	0.57	—	Unverified
8	ReferFormer (Video-Swin-B)	AP	0.55	—	Unverified
9	SOC (Video-Swin-T)	AP	0.5	—	Unverified
10	MANET	AP	0.47	—	Unverified