Referring Expression Segmentation

The task aims at labeling the pixels of an image or video that represent an object instance referred by a linguistic expression. In particular, the referring expression (RE) must allow the identification of an individual object in a discourse or scene (the referent). REs unambiguously identify the target instance.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–145 of 145 papers

Title	Date	Tasks	Status	Hype
Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation	Mar 30, 2022	Referring Expression SegmentationVideo Segmentation	—Unverified	0
Local-Global Context Aware Transformer for Language-Guided Video Segmentation	Mar 18, 2022	Referring Expression SegmentationReferring Video Object Segmentation	CodeCode Available	1
Language as Queries for Referring Video Object Segmentation	Jan 3, 2022	ObjectObject Tracking	CodeCode Available	2
Multi-Level Representation Learning With Semantic Alignment for Referring Video Object Segmentation	Jan 1, 2022	ObjectReferring Expression Segmentation	—Unverified	0
Image Segmentation Using Text and Image Prompts	Dec 18, 2021	DecoderImage Segmentation	CodeCode Available	1
LAVT: Language-Aware Vision Transformer for Referring Image Segmentation	Dec 4, 2021	DecoderGeneralized Referring Expression Segmentation	CodeCode Available	1
CRIS: CLIP-Driven Referring Image Segmentation	Nov 30, 2021	Contrastive LearningDecoder	CodeCode Available	1
End-to-End Referring Video Object Segmentation with Multimodal Transformers	Nov 29, 2021	Inductive BiasInstance Segmentation	CodeCode Available	1
Hierarchical interaction network for video object segmentation from referring expressions	Nov 22, 2021	Optical Flow EstimationReferring Expression Segmentation	—Unverified	0
MaIL: A Unified Mask-Image-Language Trimodal Network for Referring Image Segmentation	Nov 21, 2021	DecoderImage Segmentation	—Unverified	0
Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts	Nov 16, 2021	Cross-Modal RetrievalImage Captioning	CodeCode Available	1
Vision-Language Transformer and Query Generation for Referring Segmentation	Aug 12, 2021	DecoderGeneralized Referring Expression Comprehension	CodeCode Available	1
SynthRef: Generation of Synthetic Referring Expressions for Object Segmentation	Jun 8, 2021	Objectobject-detection	CodeCode Available	1
Referring Transformer: A One-step Approach to Multi-task Visual Grounding	Jun 6, 2021	DecoderReferring Expression	CodeCode Available	1
Cross-Modal Progressive Comprehension for Referring Segmentation	May 15, 2021	AttributeImage Segmentation	CodeCode Available	1
Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor Segmentation	May 14, 2021	Decoderfeature selection	—Unverified	0
MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding	Apr 26, 2021	Generalized Referring Expression ComprehensionPhrase Grounding	CodeCode Available	1
Comprehensive Multi-Modal Interactions for Referring Image Segmentation	Apr 21, 2021	Image SegmentationReferring Expression Segmentation	CodeCode Available	0
ClawCraneNet: Leveraging Object-level Relation for Text-based Video Segmentation	Mar 19, 2021	ObjectReferring Expression Segmentation	—Unverified	0
OCID-Ref: A 3D Robotic Dataset with Embodied Language for Clutter Scene Grounding	Mar 13, 2021	Referring ExpressionReferring Expression Segmentation	CodeCode Available	1
Referring Segmentation in Images and Videos with Cross-Modal Self-Attention Network	Feb 9, 2021	Referring ExpressionReferring Expression Segmentation	—Unverified	0
Actor and Action Modular Network for Text-based Video Segmentation	Nov 2, 2020	Action SegmentationAction Understanding	—Unverified	0
RefVOS: A Closer Look at Referring Expressions for Video Object Segmentation	Oct 1, 2020	Image SegmentationReferring Expression Segmentation	CodeCode Available	1
Referring Image Segmentation via Cross-Modal Progressive Comprehension	Oct 1, 2020	AttributeImage Segmentation	CodeCode Available	1
PhraseCut: Language-based Image Segmentation in the Wild	Aug 3, 2020	AttributeDiversity	CodeCode Available	1
URVOS: Unified Referring Video Object Segmentation Network with a Large-Scale Benchmark	Aug 1, 2020	ObjectOne-shot visual object segmentation	CodeCode Available	1
Polar Relative Positional Encoding for Video-Language Segmentation	Jul 20, 2020	Referring Expression SegmentationSentence	—Unverified	0
Visual-Textual Capsule Routing for Text-Based Video Segmentation	Jun 1, 2020	Action LocalizationReferring Expression Segmentation	—Unverified	0
Bi-Directional Relationship Inferring Network for Referring Image Segmentation	Jun 1, 2020	Image SegmentationReferring Expression	—Unverified	0
Referring Image Segmentation by Generative Adversarial Learning	Apr 20, 2020	Image SegmentationReferring Expression	—Unverified	0
Context Modulated Dynamic Networks for Actor and Action Video Segmentation with Language Queries	Apr 3, 2020	Referring Expression SegmentationVideo Segmentation	—Unverified	0
Modulating Bottom-Up and Top-Down Visual Processing via Language-Conditional Filters	Mar 28, 2020	ColorizationImage Colorization	CodeCode Available	0
Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation	Mar 19, 2020	Generalized Referring Expression ComprehensionReferring Expression	CodeCode Available	1
Recurrent Instance Segmentation using Sequences of Referring Expressions	Nov 5, 2019	Instance SegmentationReferring Expression	—Unverified	0
Referring Expression Object Segmentation with Caption-Aware Consistency	Oct 10, 2019	Caption GenerationObject	CodeCode Available	0
See-Through-Text Grouping for Referring Image Segmentation	Oct 1, 2019	Image Segmentationobject-detection	—Unverified	0
Asymmetric Cross-Guided Attention Network for Actor and Action Video Segmentation From Natural Language Query	Oct 1, 2019	Referring Expression SegmentationSegmentation	CodeCode Available	0
Cross-Modal Self-Attention Network for Referring Image Segmentation	Apr 9, 2019	Image SegmentationReferring Expression	CodeCode Available	0
CLEVR-Ref+: Diagnosing Visual Reasoning with Referring Expressions	Jan 3, 2019	DiagnosticImage Segmentation	CodeCode Available	0
Referring Image Segmentation via Recurrent Refinement Networks	Jun 1, 2018	Image SegmentationReferring Expression Segmentation	CodeCode Available	0
Video Object Segmentation with Language Referring Expressions	Mar 21, 2018	ObjectReferring Expression Segmentation	—Unverified	0
Actor and Action Video Segmentation from a Sentence	Mar 20, 2018	Action SegmentationDecoder	CodeCode Available	1
MAttNet: Modular Attention Network for Referring Expression Comprehension	Jan 24, 2018	Generalized Referring Expression SegmentationReferring Expression	CodeCode Available	0
Tracking by Natural Language Specification	Jul 1, 2017	Referring Expression Segmentation	—Unverified	0
Segmentation from Natural Language Expressions	Mar 20, 2016	Referring Expression SegmentationSegmentation	CodeCode Available	0

Show:10 25 50

← PrevPage 3 of 3Next →

All datasets RefCoCo val RefCOCO testA Refer-YouTube-VOS (2021 public validation)RefCOCO+ test B A2D Sentences RefCOCOg-val J-HMDB DAVIS 2017 (val)RefCOCOg-test RefCOCO testB PhraseCut RefCOCO

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeRIS-L	Overall IoU	85.41	—	Unverified
2	HyperSeg	Overall IoU	84.8	—	Unverified
3	PSALM	Overall IoU	83.6	—	Unverified
4	MLCD-Seg-7B	Overall IoU	83.6	—	Unverified
5	HIPIE	Overall IoU	82.8	—	Unverified
6	EVF-SAM	Overall IoU	82.4	—	Unverified
7	UNINEXT-H	Overall IoU	82.19	—	Unverified
8	UniLSeg-100	Overall IoU	81.74	—	Unverified
9	DETRIS	Overall IoU	81	—	Unverified
10	C3VG	Overall IoU	80.89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeRIS-L	Overall IoU	86.49	—	Unverified
2	HyperSeg	Overall IoU	85.7	—	Unverified
3	MLCD-Seg-7B	Overall IoU	85.3	—	Unverified
4	EVF-SAM	Overall IoU	84.2	—	Unverified
5	HyperSeg	Overall IoU	83.5	—	Unverified
6	C3VG	Overall IoU	83.18	—	Unverified
7	MLCD-Seg-7B	Overall IoU	82.9	—	Unverified
8	DeRIS-L	Overall IoU	82.34	—	Unverified
9	DETRIS	Overall IoU	81.9	—	Unverified
10	MaskRIS (Swin-B, combined DB)	Overall IoU	80.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MPG-SAM 2	J&F	73.9	—	Unverified
2	VRS-HQ (Chat-UniVi-13B)	J&F	71	—	Unverified
3	GLEE-Pro	J&F	70.6	—	Unverified
4	UNINEXT-H	J&F	70.1	—	Unverified
5	ReferDINO (Swin-B)	J&F	69.3	—	Unverified
6	MUTR	J&F	68.4	—	Unverified
7	VLP (VLMo-L)	J&F	67.6	—	Unverified
8	UniRef-L (Swin-L)	J&F	67.4	—	Unverified
9	HTR (Pre-training)	J&F	67.1	—	Unverified
10	DsHmp (Video-Swin-Base)	J&F	67.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeRIS-L	Mean IoU	78.59	—	Unverified
2	MLCD-Seg-7B	Overall IoU	75.6	—	Unverified
3	HyperSeg	Overall IoU	75.2	—	Unverified
4	EVF-SAM	Overall IoU	71.9	—	Unverified
5	DETRIS	Overall IoU	70.2	—	Unverified
6	C3VG	Overall IoU	68.95	—	Unverified
7	UniLSeg-100	Overall IoU	68.15	—	Unverified
8	UniLSeg-20	Overall IoU	66.99	—	Unverified
9	UNINEXT-H	Overall IoU	66.22	—	Unverified
10	GROUNDHOG	Overall IoU	64.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HINet	IoU overall	0.68	—	Unverified
2	RefVOS	IoU overall	0.67	—	Unverified
3	ClawCraneNet	IoU overall	0.64	—	Unverified
4	CMSA+CFSA	IoU overall	0.62	—	Unverified
5	RefVOS	IoU overall	0.6	—	Unverified
6	SgMg (Video-Swin-B)	AP	0.59	—	Unverified
7	SOC (Video-Swin-B)	AP	0.57	—	Unverified
8	ReferFormer (Video-Swin-B)	AP	0.55	—	Unverified
9	SOC (Video-Swin-T)	AP	0.5	—	Unverified
10	MANET	AP	0.47	—	Unverified