Referring Expression Segmentation

The task aims at labeling the pixels of an image or video that represent an object instance referred by a linguistic expression. In particular, the referring expression (RE) must allow the identification of an individual object in a discourse or scene (the referent). REs unambiguously identify the target instance.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 145 papers

Title	Date	Tasks	Status	Hype
MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation	Nov 28, 2024	Data AugmentationImage Segmentation	CodeCode Available	1
MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding	Apr 26, 2021	Generalized Referring Expression ComprehensionPhrase Grounding	CodeCode Available	1
Modeling Motion with Multi-Modal Features for Text-Based Video Segmentation	Apr 6, 2022	Optical Flow EstimationReferring Expression Segmentation	CodeCode Available	1
MPG-SAM 2: Adapting SAM 2 with Mask Priors and Global Context for Referring Video Object Segmentation	Jan 23, 2025	Referring Expression SegmentationReferring Video Object Segmentation	CodeCode Available	1
Multi-Attention Network for Compressed Video Referring Object Segmentation	Jul 26, 2022	ObjectReferring Expression Segmentation	CodeCode Available	1
Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts	Nov 16, 2021	Cross-Modal RetrievalImage Captioning	CodeCode Available	1
Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation	Mar 19, 2020	Generalized Referring Expression ComprehensionReferring Expression	CodeCode Available	1
Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints	Jan 12, 2025	Image SegmentationReferring Expression	CodeCode Available	1
OCID-Ref: A 3D Robotic Dataset with Embodied Language for Clutter Scene Grounding	Mar 13, 2021	Referring ExpressionReferring Expression Segmentation	CodeCode Available	1
OnlineRefer: A Simple Online Baseline for Referring Video Object Segmentation	Jul 18, 2023	Referring Expression SegmentationReferring Video Object Segmentation	CodeCode Available	1
PhraseCut: Language-based Image Segmentation in the Wild	Aug 3, 2020	AttributeDiversity	CodeCode Available	1
PixFoundation: Are We Heading in the Right Direction with Pixel-level Vision Foundation Models?	Feb 6, 2025	Question AnsweringReferring Expression	CodeCode Available	1
PolyFormer: Referring Image Segmentation as Sequential Polygon Generation	Feb 14, 2023	DecoderImage Segmentation	CodeCode Available	1
Image Segmentation Using Text and Image Prompts	Dec 18, 2021	DecoderImage Segmentation	CodeCode Available	1
Towards Robust Referring Video Object Segmentation with Cyclic Relational Consensus	Jul 4, 2022	Referring Expression SegmentationReferring Video Object Segmentation	CodeCode Available	1
Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation	May 25, 2023	ObjectReferring Expression Segmentation	CodeCode Available	1
Referring Image Segmentation Using Text Supervision	Aug 28, 2023	Image SegmentationObject Localization	CodeCode Available	1
Referring Image Segmentation via Cross-Modal Progressive Comprehension	Oct 1, 2020	AttributeImage Segmentation	CodeCode Available	1
Referring Transformer: A One-step Approach to Multi-task Visual Grounding	Jun 6, 2021	DecoderReferring Expression	CodeCode Available	1
RefVOS: A Closer Look at Referring Expressions for Video Object Segmentation	Oct 1, 2020	Image SegmentationReferring Expression Segmentation	CodeCode Available	1
RG-SAN: Rule-Guided Spatial Awareness Network for End-to-End 3D Referring Expression Segmentation	Dec 3, 2024	Referring ExpressionReferring Expression Segmentation	CodeCode Available	1
SAM as the Guide: Mastering Pseudo-Label Refinement in Semi-Supervised Referring Expression Segmentation	Jun 3, 2024	Pseudo LabelReferring Expression	CodeCode Available	1
SeqTR: A Simple yet Universal Network for Visual Grounding	Mar 30, 2022	DecoderReferring Expression	CodeCode Available	1
SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation	May 26, 2023	cross-modal alignmentObject	CodeCode Available	1
Spectrum-guided Multi-granularity Referring Video Object Segmentation	Jul 25, 2023	ObjectReferring Expression Segmentation	CodeCode Available	1
SynthRef: Generation of Synthetic Referring Expressions for Object Segmentation	Jun 8, 2021	Objectobject-detection	CodeCode Available	1
Temporally Consistent Referring Video Object Segmentation with Hybrid Memory	Mar 28, 2024	HTRObject	CodeCode Available	1
Unveiling Parts Beyond Objects:Towards Finer-Granularity Referring Expression Segmentation	Dec 13, 2023	DescriptiveObject	CodeCode Available	1
URVOS: Unified Referring Video Object Segmentation Network with a Large-Scale Benchmark	Aug 1, 2020	ObjectOne-shot visual object segmentation	CodeCode Available	1
ViLLa: Video Reasoning Segmentation with Large Language Model	Jul 18, 2024	Image SegmentationLanguage Modeling	CodeCode Available	1
Vision-Language Transformer and Query Generation for Referring Segmentation	Aug 12, 2021	DecoderGeneralized Referring Expression Comprehension	CodeCode Available	1
3D-GRES: Generalized 3D Referring Expression Segmentation	Jul 30, 2024	ObjectReferring Expression	CodeCode Available	1
Actor and Action Modular Network for Text-based Video Segmentation	Nov 2, 2020	Action SegmentationAction Understanding	—Unverified	0
See-Through-Text Grouping for Referring Image Segmentation	Oct 1, 2019	Image Segmentationobject-detection	—Unverified	0
SegLLM: Multi-round Reasoning Segmentation	Oct 24, 2024	Reasoning SegmentationReferring Expression	—Unverified	0
Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects	Dec 8, 2023	Image Captioningobject-detection	—Unverified	0
MaIL: A Unified Mask-Image-Language Trimodal Network for Referring Image Segmentation	Nov 21, 2021	DecoderImage Segmentation	—Unverified	0
Mask-aware Text-to-Image Retrieval: Referring Expression Segmentation Meets Cross-modal Retrieval	Jun 28, 2025	Cross-Modal RetrievalImage Captioning	—Unverified	0
Segment Every Reference Object in Spatial and Temporal Spaces	Jan 1, 2023	Image SegmentationObject	—Unverified	0
Context Modulated Dynamic Networks for Actor and Action Video Segmentation with Language Queries	Apr 3, 2020	Referring Expression SegmentationVideo Segmentation	—Unverified	0
Meta Compositional Referring Expression Segmentation	Apr 10, 2023	Meta-LearningReferring Expression	—Unverified	0
3DResT: A Strong Baseline for Semi-Supervised 3D Referring Expression Segmentation	Apr 17, 2025	Referring ExpressionReferring Expression Segmentation	—Unverified	0
Video Object Segmentation with Language Referring Expressions	Mar 21, 2018	ObjectReferring Expression Segmentation	—Unverified	0
Weakly-supervised segmentation of referring expressions	May 10, 2022	Image SegmentationReferring Expression	—Unverified	0
Multi-Level Representation Learning With Semantic Alignment for Referring Video Object Segmentation	Jan 1, 2022	ObjectReferring Expression Segmentation	—Unverified	0
WiCo: Win-win Cooperation of Bottom-up and Top-down Referring Image Segmentation	Jun 19, 2023	cross-modal alignmentImage Segmentation	—Unverified	0
Task-aware Cross-modal Feature Refinement Transformer with Large Language Models for Visual Grounding	Jan 1, 2025	Referring ExpressionReferring Expression Comprehension	—Unverified	0
Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor Segmentation	May 14, 2021	Decoderfeature selection	—Unverified	0
CLIPUNetr: Assisting Human-robot Interface for Uncalibrated Visual Servoing Control with CLIP-driven Referring Expression Segmentation	Sep 17, 2023	DecoderReferring Expression	—Unverified	0
Polar Relative Positional Encoding for Video-Language Segmentation	Jul 20, 2020	Referring Expression SegmentationSentence	—Unverified	0

Show:10 25 50

← PrevPage 2 of 3Next →

All datasets RefCoCo val RefCOCO testA Refer-YouTube-VOS (2021 public validation)RefCOCO+ test B A2D Sentences RefCOCOg-val J-HMDB DAVIS 2017 (val)RefCOCOg-test RefCOCO testB PhraseCut RefCOCO

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeRIS-L	Overall IoU	85.41	—	Unverified
2	HyperSeg	Overall IoU	84.8	—	Unverified
3	PSALM	Overall IoU	83.6	—	Unverified
4	MLCD-Seg-7B	Overall IoU	83.6	—	Unverified
5	HIPIE	Overall IoU	82.8	—	Unverified
6	EVF-SAM	Overall IoU	82.4	—	Unverified
7	UNINEXT-H	Overall IoU	82.19	—	Unverified
8	UniLSeg-100	Overall IoU	81.74	—	Unverified
9	DETRIS	Overall IoU	81	—	Unverified
10	C3VG	Overall IoU	80.89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeRIS-L	Overall IoU	86.49	—	Unverified
2	HyperSeg	Overall IoU	85.7	—	Unverified
3	MLCD-Seg-7B	Overall IoU	85.3	—	Unverified
4	EVF-SAM	Overall IoU	84.2	—	Unverified
5	HyperSeg	Overall IoU	83.5	—	Unverified
6	C3VG	Overall IoU	83.18	—	Unverified
7	MLCD-Seg-7B	Overall IoU	82.9	—	Unverified
8	DeRIS-L	Overall IoU	82.34	—	Unverified
9	DETRIS	Overall IoU	81.9	—	Unverified
10	MaskRIS (Swin-B, combined DB)	Overall IoU	80.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MPG-SAM 2	J&F	73.9	—	Unverified
2	VRS-HQ (Chat-UniVi-13B)	J&F	71	—	Unverified
3	GLEE-Pro	J&F	70.6	—	Unverified
4	UNINEXT-H	J&F	70.1	—	Unverified
5	ReferDINO (Swin-B)	J&F	69.3	—	Unverified
6	MUTR	J&F	68.4	—	Unverified
7	VLP (VLMo-L)	J&F	67.6	—	Unverified
8	UniRef-L (Swin-L)	J&F	67.4	—	Unverified
9	HTR (Pre-training)	J&F	67.1	—	Unverified
10	DsHmp (Video-Swin-Base)	J&F	67.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeRIS-L	Mean IoU	78.59	—	Unverified
2	MLCD-Seg-7B	Overall IoU	75.6	—	Unverified
3	HyperSeg	Overall IoU	75.2	—	Unverified
4	EVF-SAM	Overall IoU	71.9	—	Unverified
5	DETRIS	Overall IoU	70.2	—	Unverified
6	C3VG	Overall IoU	68.95	—	Unverified
7	UniLSeg-100	Overall IoU	68.15	—	Unverified
8	UniLSeg-20	Overall IoU	66.99	—	Unverified
9	UNINEXT-H	Overall IoU	66.22	—	Unverified
10	GROUNDHOG	Overall IoU	64.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HINet	IoU overall	0.68	—	Unverified
2	RefVOS	IoU overall	0.67	—	Unverified
3	ClawCraneNet	IoU overall	0.64	—	Unverified
4	CMSA+CFSA	IoU overall	0.62	—	Unverified
5	RefVOS	IoU overall	0.6	—	Unverified
6	SgMg (Video-Swin-B)	AP	0.59	—	Unverified
7	SOC (Video-Swin-B)	AP	0.57	—	Unverified
8	ReferFormer (Video-Swin-B)	AP	0.55	—	Unverified
9	SOC (Video-Swin-T)	AP	0.5	—	Unverified
10	MANET	AP	0.47	—	Unverified