Referring Expression Segmentation

The task aims at labeling the pixels of an image or video that represent an object instance referred by a linguistic expression. In particular, the referring expression (RE) must allow the identification of an individual object in a discourse or scene (the referent). REs unambiguously identify the target instance.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 145 papers

Title	Date	Tasks	Status	Hype
DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy	Jul 2, 2025	Data AugmentationGeneralized Referring Expression Segmentation	CodeCode Available	1
Mask-aware Text-to-Image Retrieval: Referring Expression Segmentation Meets Cross-modal Retrieval	Jun 28, 2025	Cross-Modal RetrievalImage Captioning	—Unverified	0
Refer to Anything with Vision-Language Prompts	Jun 5, 2025	BenchmarkingGeneralized Referring Expression Segmentation	—Unverified	0
RemoteSAM: Towards Segment Anything for Earth Observation	May 23, 2025	AttributeEarth Observation	CodeCode Available	3
VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning	May 17, 2025	2D Object DetectionObject Counting	CodeCode Available	4
RESAnything: Attribute Prompting for Arbitrary Referring Segmentation	May 3, 2025	AttributeImage Segmentation	—Unverified	0
3DResT: A Strong Baseline for Semi-Supervised 3D Referring Expression Segmentation	Apr 17, 2025	Referring ExpressionReferring Expression Segmentation	—Unverified	0
Towards Unified Referring Expression Segmentation Across Omni-Level Visual Target Granularities	Apr 2, 2025	DescriptiveLarge Language Model	CodeCode Available	0
GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding	Mar 13, 2025	DiversityLanguage Modeling	CodeCode Available	2
SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories	Mar 11, 2025	Decision MakingInteractive Segmentation	CodeCode Available	2
Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement	Mar 9, 2025	Domain GeneralizationObject Detection	CodeCode Available	4
PixFoundation: Are We Heading in the Right Direction with Pixel-level Vision Foundation Models?	Feb 6, 2025	Question AnsweringReferring Expression	CodeCode Available	1
ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations	Jan 24, 2025	DecoderObject	—Unverified	0
MPG-SAM 2: Adapting SAM 2 with Mask Priors and Global Context for Referring Video Object Segmentation	Jan 23, 2025	Referring Expression SegmentationReferring Video Object Segmentation	CodeCode Available	1
InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling	Jan 21, 2025	Object TrackingReferring Expression Segmentation	—Unverified	0
Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation	Jan 15, 2025	Image SegmentationReferring Expression Segmentation	CodeCode Available	2
The Devil is in Temporal Token: High Quality Video Reasoning Segmentation	Jan 15, 2025	Reasoning SegmentationReferring Expression Segmentation	CodeCode Available	2
Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints	Jan 12, 2025	Image SegmentationReferring Expression	CodeCode Available	1
IPDN: Image-enhanced Prompt Decoding Network for 3D Referring Expression Segmentation	Jan 9, 2025	DecoderReferring Expression	CodeCode Available	1
Hierarchical Alignment-enhanced Adaptive Grounding Network for Generalized Referring Expression Comprehension	Jan 2, 2025	Generalized Referring Expression ComprehensionGeneralized Referring Expression Segmentation	—Unverified	0
DViN: Dynamic Visual Routing Network for Weakly Supervised Referring Expression Comprehension	Jan 1, 2025	DescriptiveReferring Expression	—Unverified	0
Task-aware Cross-modal Feature Refinement Transformer with Large Language Models for Visual Grounding	Jan 1, 2025	Referring ExpressionReferring Expression Comprehension	—Unverified	0
RG-SAN: Rule-Guided Spatial Awareness Network for End-to-End 3D Referring Expression Segmentation	Dec 3, 2024	Referring ExpressionReferring Expression Segmentation	CodeCode Available	1
MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation	Nov 28, 2024	Data AugmentationImage Segmentation	CodeCode Available	1
HyperSeg: Towards Universal Visual Segmentation with Large Language Model	Nov 26, 2024	Language ModelingLarge Language Model	CodeCode Available	2
Instance-Aware Generalized Referring Expression Segmentation	Nov 22, 2024	Generalized Referring Expression SegmentationObject	—Unverified	0
SegLLM: Multi-round Reasoning Segmentation	Oct 24, 2024	Reasoning SegmentationReferring Expression	—Unverified	0
Text4Seg: Reimagining Image Segmentation as Text Generation	Oct 13, 2024	Image SegmentationReferring Expression	CodeCode Available	2
SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation	Sep 1, 2024	Language ModelingLanguage Modelling	CodeCode Available	2
3D-GRES: Generalized 3D Referring Expression Segmentation	Jul 30, 2024	ObjectReferring Expression	CodeCode Available	1
Multi-label Cluster Discrimination for Visual Representation Learning	Jul 24, 2024	Contrastive LearningImage-text Retrieval	CodeCode Available	4
ViLLa: Video Reasoning Segmentation with Large Language Model	Jul 18, 2024	Image SegmentationLanguage Modeling	CodeCode Available	1
SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation	Jul 2, 2024	Referring ExpressionReferring Expression Segmentation	—Unverified	0
EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model	Jun 28, 2024	Interactive SegmentationLanguage Modeling	CodeCode Available	3
GroPrompt: Efficient Grounded Prompting and Adaptation for Referring Video Object Segmentation	Jun 18, 2024	Contrastive LearningObject	—Unverified	0
F-LMM: Grounding Frozen Large Multimodal Models	Jun 9, 2024	General KnowledgeInstruction Following	CodeCode Available	2
SAM as the Guide: Mastering Pseudo-Label Refinement in Semi-Supervised Referring Expression Segmentation	Jun 3, 2024	Pseudo LabelReferring Expression	CodeCode Available	1
GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane	May 27, 2024	3DGSfeature selection	—Unverified	0
Bring Adaptive Binding Prototypes to Generalized Referring Expression Segmentation	May 24, 2024	DecoderGeneralized Referring Expression Segmentation	CodeCode Available	0
CoHD: A Counting-Aware Hierarchical Decoding Framework for Generalized Referring Expression Segmentation	May 24, 2024	Generalized Referring Expression SegmentationObject	CodeCode Available	1
Harnessing Vision-Language Pretrained Models with Temporal-Aware Adaptation for Referring Video Object Segmentation	May 17, 2024	Referring Expression SegmentationReferring Video Object Segmentation	—Unverified	0
Vision-Aware Text Features in Referring Image Segmentation: From Object Understanding to Context Understanding	Apr 12, 2024	DecoderImage Segmentation	CodeCode Available	0
Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation	Apr 4, 2024	Contrastive LearningReferring Expression	CodeCode Available	2
Temporally Consistent Referring Video Object Segmentation with Hybrid Memory	Mar 28, 2024	HTRObject	CodeCode Available	1
PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model	Mar 21, 2024	DecoderGeneralized Referring Expression Segmentation	CodeCode Available	3
UniVS: Unified and Universal Video Segmentation with Prompts as Queries	Feb 28, 2024	DecoderReferring Expression Segmentation	CodeCode Available	3
GROUNDHOG: Grounding Large Language Models to Holistic Segmentation	Feb 26, 2024	Causal Language ModelingGeneralized Referring Expression Segmentation	—Unverified	0
RESMatch: Referring Expression Segmentation in a Semi-Supervised Manner	Feb 8, 2024	Image SegmentationPseudo Label	—Unverified	0
Generalizable Entity Grounding via Assistance of Large Language Model	Feb 4, 2024	Language ModelingLanguage Modelling	—Unverified	0
Unveiling Parts Beyond Objects: Towards Finer-Granularity Referring Expression Segmentation	Jan 1, 2024	DescriptiveObject	CodeCode Available	2

Show:10 25 50

← PrevPage 1 of 3Next →

All datasets RefCoCo val RefCOCO testA Refer-YouTube-VOS (2021 public validation)RefCOCO+ test B A2D Sentences RefCOCOg-val J-HMDB DAVIS 2017 (val)RefCOCOg-test RefCOCO testB PhraseCut RefCOCO

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeRIS-L	Overall IoU	85.41	—	Unverified
2	HyperSeg	Overall IoU	84.8	—	Unverified
3	PSALM	Overall IoU	83.6	—	Unverified
4	MLCD-Seg-7B	Overall IoU	83.6	—	Unverified
5	HIPIE	Overall IoU	82.8	—	Unverified
6	EVF-SAM	Overall IoU	82.4	—	Unverified
7	UNINEXT-H	Overall IoU	82.19	—	Unverified
8	UniLSeg-100	Overall IoU	81.74	—	Unverified
9	DETRIS	Overall IoU	81	—	Unverified
10	C3VG	Overall IoU	80.89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeRIS-L	Overall IoU	86.49	—	Unverified
2	HyperSeg	Overall IoU	85.7	—	Unverified
3	MLCD-Seg-7B	Overall IoU	85.3	—	Unverified
4	EVF-SAM	Overall IoU	84.2	—	Unverified
5	HyperSeg	Overall IoU	83.5	—	Unverified
6	C3VG	Overall IoU	83.18	—	Unverified
7	MLCD-Seg-7B	Overall IoU	82.9	—	Unverified
8	DeRIS-L	Overall IoU	82.34	—	Unverified
9	DETRIS	Overall IoU	81.9	—	Unverified
10	MaskRIS (Swin-B, combined DB)	Overall IoU	80.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MPG-SAM 2	J&F	73.9	—	Unverified
2	VRS-HQ (Chat-UniVi-13B)	J&F	71	—	Unverified
3	GLEE-Pro	J&F	70.6	—	Unverified
4	UNINEXT-H	J&F	70.1	—	Unverified
5	ReferDINO (Swin-B)	J&F	69.3	—	Unverified
6	MUTR	J&F	68.4	—	Unverified
7	VLP (VLMo-L)	J&F	67.6	—	Unverified
8	UniRef-L (Swin-L)	J&F	67.4	—	Unverified
9	HTR (Pre-training)	J&F	67.1	—	Unverified
10	DsHmp (Video-Swin-Base)	J&F	67.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeRIS-L	Mean IoU	78.59	—	Unverified
2	MLCD-Seg-7B	Overall IoU	75.6	—	Unverified
3	HyperSeg	Overall IoU	75.2	—	Unverified
4	EVF-SAM	Overall IoU	71.9	—	Unverified
5	DETRIS	Overall IoU	70.2	—	Unverified
6	C3VG	Overall IoU	68.95	—	Unverified
7	UniLSeg-100	Overall IoU	68.15	—	Unverified
8	UniLSeg-20	Overall IoU	66.99	—	Unverified
9	UNINEXT-H	Overall IoU	66.22	—	Unverified
10	GROUNDHOG	Overall IoU	64.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HINet	IoU overall	0.68	—	Unverified
2	RefVOS	IoU overall	0.67	—	Unverified
3	ClawCraneNet	IoU overall	0.64	—	Unverified
4	CMSA+CFSA	IoU overall	0.62	—	Unverified
5	RefVOS	IoU overall	0.6	—	Unverified
6	SgMg (Video-Swin-B)	AP	0.59	—	Unverified
7	SOC (Video-Swin-B)	AP	0.57	—	Unverified
8	ReferFormer (Video-Swin-B)	AP	0.55	—	Unverified
9	SOC (Video-Swin-T)	AP	0.5	—	Unverified
10	MANET	AP	0.47	—	Unverified