Referring Expression Segmentation

The task aims at labeling the pixels of an image or video that represent an object instance referred by a linguistic expression. In particular, the referring expression (RE) must allow the identification of an individual object in a discourse or scene (the referent). REs unambiguously identify the target instance.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 145 papers

Title	Date	Tasks	Status	Hype	Score
MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation	Nov 28, 2024	Data AugmentationImage Segmentation	CodeCode Available	1	5
MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding	Apr 26, 2021	Generalized Referring Expression ComprehensionPhrase Grounding	CodeCode Available	1	5
Modeling Motion with Multi-Modal Features for Text-Based Video Segmentation	Apr 6, 2022	Optical Flow EstimationReferring Expression Segmentation	CodeCode Available	1	5
MPG-SAM 2: Adapting SAM 2 with Mask Priors and Global Context for Referring Video Object Segmentation	Jan 23, 2025	Referring Expression SegmentationReferring Video Object Segmentation	CodeCode Available	1	5
Multi-Attention Network for Compressed Video Referring Object Segmentation	Jul 26, 2022	ObjectReferring Expression Segmentation	CodeCode Available	1	5
Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts	Nov 16, 2021	Cross-Modal RetrievalImage Captioning	CodeCode Available	1	5
Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation	Mar 19, 2020	Generalized Referring Expression ComprehensionReferring Expression	CodeCode Available	1	5
Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints	Jan 12, 2025	Image SegmentationReferring Expression	CodeCode Available	1	5
OCID-Ref: A 3D Robotic Dataset with Embodied Language for Clutter Scene Grounding	Mar 13, 2021	Referring ExpressionReferring Expression Segmentation	CodeCode Available	1	5
OnlineRefer: A Simple Online Baseline for Referring Video Object Segmentation	Jul 18, 2023	Referring Expression SegmentationReferring Video Object Segmentation	CodeCode Available	1	5
PhraseCut: Language-based Image Segmentation in the Wild	Aug 3, 2020	AttributeDiversity	CodeCode Available	1	5
PixFoundation: Are We Heading in the Right Direction with Pixel-level Vision Foundation Models?	Feb 6, 2025	Question AnsweringReferring Expression	CodeCode Available	1	5
PolyFormer: Referring Image Segmentation as Sequential Polygon Generation	Feb 14, 2023	DecoderImage Segmentation	CodeCode Available	1	5
Image Segmentation Using Text and Image Prompts	Dec 18, 2021	DecoderImage Segmentation	CodeCode Available	1	5
Towards Robust Referring Video Object Segmentation with Cyclic Relational Consensus	Jul 4, 2022	Referring Expression SegmentationReferring Video Object Segmentation	CodeCode Available	1	5
Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation	May 25, 2023	ObjectReferring Expression Segmentation	CodeCode Available	1	5
Referring Image Segmentation Using Text Supervision	Aug 28, 2023	Image SegmentationObject Localization	CodeCode Available	1	5
Referring Image Segmentation via Cross-Modal Progressive Comprehension	Oct 1, 2020	AttributeImage Segmentation	CodeCode Available	1	5
Referring Transformer: A One-step Approach to Multi-task Visual Grounding	Jun 6, 2021	DecoderReferring Expression	CodeCode Available	1	5
RefVOS: A Closer Look at Referring Expressions for Video Object Segmentation	Oct 1, 2020	Image SegmentationReferring Expression Segmentation	CodeCode Available	1	5
RG-SAN: Rule-Guided Spatial Awareness Network for End-to-End 3D Referring Expression Segmentation	Dec 3, 2024	Referring ExpressionReferring Expression Segmentation	CodeCode Available	1	5
SAM as the Guide: Mastering Pseudo-Label Refinement in Semi-Supervised Referring Expression Segmentation	Jun 3, 2024	Pseudo LabelReferring Expression	CodeCode Available	1	5
SeqTR: A Simple yet Universal Network for Visual Grounding	Mar 30, 2022	DecoderReferring Expression	CodeCode Available	1	5
SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation	May 26, 2023	cross-modal alignmentObject	CodeCode Available	1	5
Spectrum-guided Multi-granularity Referring Video Object Segmentation	Jul 25, 2023	ObjectReferring Expression Segmentation	CodeCode Available	1	5
SynthRef: Generation of Synthetic Referring Expressions for Object Segmentation	Jun 8, 2021	Objectobject-detection	CodeCode Available	1	5
Temporally Consistent Referring Video Object Segmentation with Hybrid Memory	Mar 28, 2024	HTRObject	CodeCode Available	1	5
Unveiling Parts Beyond Objects:Towards Finer-Granularity Referring Expression Segmentation	Dec 13, 2023	DescriptiveObject	CodeCode Available	1	5
URVOS: Unified Referring Video Object Segmentation Network with a Large-Scale Benchmark	Aug 1, 2020	ObjectOne-shot visual object segmentation	CodeCode Available	1	5
ViLLa: Video Reasoning Segmentation with Large Language Model	Jul 18, 2024	Image SegmentationLanguage Modeling	CodeCode Available	1	5
Vision-Language Transformer and Query Generation for Referring Segmentation	Aug 12, 2021	DecoderGeneralized Referring Expression Comprehension	CodeCode Available	1	5
3D-GRES: Generalized 3D Referring Expression Segmentation	Jul 30, 2024	ObjectReferring Expression	CodeCode Available	1	5
InstructSeq: Unifying Vision Tasks with Instruction-conditioned Multi-modal Sequence Generation	Nov 30, 2023	Image CaptioningReferring Expression	CodeCode Available	0	5
MAttNet: Modular Attention Network for Referring Expression Comprehension	Jan 24, 2018	Generalized Referring Expression SegmentationReferring Expression	CodeCode Available	0	5
Referring Expression Object Segmentation with Caption-Aware Consistency	Oct 10, 2019	Caption GenerationObject	CodeCode Available	0	5
Asymmetric Cross-Guided Attention Network for Actor and Action Video Segmentation From Natural Language Query	Oct 1, 2019	Referring Expression SegmentationSegmentation	CodeCode Available	0	5
Towards Unified Referring Expression Segmentation Across Omni-Level Visual Target Granularities	Apr 2, 2025	DescriptiveLarge Language Model	CodeCode Available	0	5
Comprehensive Multi-Modal Interactions for Referring Image Segmentation	Apr 21, 2021	Image SegmentationReferring Expression Segmentation	CodeCode Available	0	5
Bring Adaptive Binding Prototypes to Generalized Referring Expression Segmentation	May 24, 2024	DecoderGeneralized Referring Expression Segmentation	CodeCode Available	0	5
Learning To Segment Every Referring Object Point by Point	Jan 1, 2023	ObjectReferring Expression	CodeCode Available	0	5
Exploring Modulated Detection Transformer as a Tool for Action Recognition in Videos	Sep 21, 2022	Action DetectionAction Recognition	CodeCode Available	0	5
Cross-Modal Self-Attention Network for Referring Image Segmentation	Apr 9, 2019	Image SegmentationReferring Expression	CodeCode Available	0	5
Modulating Bottom-Up and Top-Down Visual Processing via Language-Conditional Filters	Mar 28, 2020	ColorizationImage Colorization	CodeCode Available	0	5
Referring Image Segmentation via Recurrent Refinement Networks	Jun 1, 2018	Image SegmentationReferring Expression Segmentation	CodeCode Available	0	5
Expression Prompt Collaboration Transformer for Universal Referring Video Object Segmentation	Aug 8, 2023	Contrastive LearningObject	CodeCode Available	0	5
Vision-Aware Text Features in Referring Image Segmentation: From Object Understanding to Context Understanding	Apr 12, 2024	DecoderImage Segmentation	CodeCode Available	0	5
CLEVR-Ref+: Diagnosing Visual Reasoning with Referring Expressions	Jan 3, 2019	DiagnosticImage Segmentation	CodeCode Available	0	5
Towards Omni-supervised Referring Expression Segmentation	Nov 1, 2023	Referring ExpressionReferring Expression Segmentation	CodeCode Available	0	5
Segmentation from Natural Language Expressions	Mar 20, 2016	Referring Expression SegmentationSegmentation	CodeCode Available	0	5
Extending CLIP's Image-Text Alignment to Referring Image Segmentation	Jun 14, 2023	Image SegmentationReferring Expression Segmentation	—Unverified	0	0

Show:10 25 50

← PrevPage 2 of 3Next →

All datasets RefCoCo val RefCOCO testA Refer-YouTube-VOS (2021 public validation)RefCOCO+ test B A2D Sentences RefCOCOg-val J-HMDB DAVIS 2017 (val)RefCOCOg-test RefCOCO testB PhraseCut RefCOCO

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeRIS-L	Overall IoU	85.41	—	Unverified
2	HyperSeg	Overall IoU	84.8	—	Unverified
3	PSALM	Overall IoU	83.6	—	Unverified
4	MLCD-Seg-7B	Overall IoU	83.6	—	Unverified
5	HIPIE	Overall IoU	82.8	—	Unverified
6	EVF-SAM	Overall IoU	82.4	—	Unverified
7	UNINEXT-H	Overall IoU	82.19	—	Unverified
8	UniLSeg-100	Overall IoU	81.74	—	Unverified
9	DETRIS	Overall IoU	81	—	Unverified
10	C3VG	Overall IoU	80.89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeRIS-L	Overall IoU	86.49	—	Unverified
2	HyperSeg	Overall IoU	85.7	—	Unverified
3	MLCD-Seg-7B	Overall IoU	85.3	—	Unverified
4	EVF-SAM	Overall IoU	84.2	—	Unverified
5	HyperSeg	Overall IoU	83.5	—	Unverified
6	C3VG	Overall IoU	83.18	—	Unverified
7	MLCD-Seg-7B	Overall IoU	82.9	—	Unverified
8	DeRIS-L	Overall IoU	82.34	—	Unverified
9	DETRIS	Overall IoU	81.9	—	Unverified
10	MaskRIS (Swin-B, combined DB)	Overall IoU	80.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MPG-SAM 2	J&F	73.9	—	Unverified
2	VRS-HQ (Chat-UniVi-13B)	J&F	71	—	Unverified
3	GLEE-Pro	J&F	70.6	—	Unverified
4	UNINEXT-H	J&F	70.1	—	Unverified
5	ReferDINO (Swin-B)	J&F	69.3	—	Unverified
6	MUTR	J&F	68.4	—	Unverified
7	VLP (VLMo-L)	J&F	67.6	—	Unverified
8	UniRef-L (Swin-L)	J&F	67.4	—	Unverified
9	HTR (Pre-training)	J&F	67.1	—	Unverified
10	DsHmp (Video-Swin-Base)	J&F	67.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeRIS-L	Mean IoU	78.59	—	Unverified
2	MLCD-Seg-7B	Overall IoU	75.6	—	Unverified
3	HyperSeg	Overall IoU	75.2	—	Unverified
4	EVF-SAM	Overall IoU	71.9	—	Unverified
5	DETRIS	Overall IoU	70.2	—	Unverified
6	C3VG	Overall IoU	68.95	—	Unverified
7	UniLSeg-100	Overall IoU	68.15	—	Unverified
8	UniLSeg-20	Overall IoU	66.99	—	Unverified
9	UNINEXT-H	Overall IoU	66.22	—	Unverified
10	GROUNDHOG	Overall IoU	64.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HINet	IoU overall	0.68	—	Unverified
2	RefVOS	IoU overall	0.67	—	Unverified
3	ClawCraneNet	IoU overall	0.64	—	Unverified
4	CMSA+CFSA	IoU overall	0.62	—	Unverified
5	RefVOS	IoU overall	0.6	—	Unverified
6	SgMg (Video-Swin-B)	AP	0.59	—	Unverified
7	SOC (Video-Swin-B)	AP	0.57	—	Unverified
8	ReferFormer (Video-Swin-B)	AP	0.55	—	Unverified
9	SOC (Video-Swin-T)	AP	0.5	—	Unverified
10	MANET	AP	0.47	—	Unverified