Referring Video Object Segmentation

Referring video object segmentation aims at segmenting an object in video with language expressions. Unlike the previous video object segmentation, the task exploits a different type of supervision, language expressions, to identify and segment an object referred by the given language expressions in a video.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 74 papers

Title	Date	Tasks	Status	Hype
Temporally Consistent Referring Video Object Segmentation with Hybrid Memory	Mar 28, 2024	HTRObject	CodeCode Available	1
Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation	Mar 18, 2024	Referring Video Object SegmentationSemantic Segmentation	CodeCode Available	1
1st Place Solution for 5th LSVOS Challenge: Referring Video Object Segmentation	Jan 1, 2024	ObjectReferring Video Object Segmentation	CodeCode Available	1
Tracking with Human-Intent Reasoning	Dec 29, 2023	Language ModellingObject	CodeCode Available	1
Spectrum-guided Multi-granularity Referring Video Object Segmentation	Jul 25, 2023	ObjectReferring Expression Segmentation	CodeCode Available	1
OnlineRefer: A Simple Online Baseline for Referring Video Object Segmentation	Jul 18, 2023	Referring Expression SegmentationReferring Video Object Segmentation	CodeCode Available	1
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation	Jul 3, 2023	Image SegmentationReferring Expression	CodeCode Available	1
LoSh: Long-Short Text Joint Prediction Network for Referring Video Object Segmentation	Jun 14, 2023	Referring Expression SegmentationReferring Video Object Segmentation	CodeCode Available	1
SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation	May 26, 2023	cross-modal alignmentObject	CodeCode Available	1
Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation	May 25, 2023	ObjectReferring Expression Segmentation	CodeCode Available	1
1st Place Solution for YouTubeVOS Challenge 2022: Referring Video Object Segmentation	Dec 27, 2022	ObjectReferring Video Object Segmentation	CodeCode Available	1
Multi-Attention Network for Compressed Video Referring Object Segmentation	Jul 26, 2022	ObjectReferring Expression Segmentation	CodeCode Available	1
Towards Robust Referring Video Object Segmentation with Cyclic Relational Consensus	Jul 4, 2022	Referring Expression SegmentationReferring Video Object Segmentation	CodeCode Available	1
Language-Bridged Spatial-Temporal Interaction for Referring Video Object Segmentation	Jun 8, 2022	DenoisingReferring Video Object Segmentation	CodeCode Available	1
Local-Global Context Aware Transformer for Language-Guided Video Segmentation	Mar 18, 2022	Referring Expression SegmentationReferring Video Object Segmentation	CodeCode Available	1
End-to-End Referring Video Object Segmentation with Multimodal Transformers	Nov 29, 2021	Inductive BiasInstance Segmentation	CodeCode Available	1
URVOS: Unified Referring Video Object Segmentation Network with a Large-Scale Benchmark	Aug 1, 2020	ObjectOne-shot visual object segmentation	CodeCode Available	1
InterRVOS: Interaction-aware Referring Video Object Segmentation	Jun 3, 2025	8kObject	—Unverified	0
Long-RVOS: A Comprehensive Benchmark for Long-term Referring Video Object Segmentation	May 19, 2025	Referring Video Object SegmentationSemantic Segmentation	—Unverified	0
Few-Shot Referring Video Single- and Multi-Object Segmentation via Cross-Modal Affinity with Instance Sequence Matching	Apr 18, 2025	ObjectReferring Video Object Segmentation	CodeCode Available	0
ReferDINO-Plus: 2nd Solution for 4th PVUW MeViS Challenge at CVPR 2025	Mar 30, 2025	ObjectReferring Video Object Segmentation	CodeCode Available	0
ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations	Jan 24, 2025	DecoderObject	—Unverified	0
InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling	Jan 21, 2025	Object TrackingReferring Expression Segmentation	—Unverified	0
Multi-Context Temporal Consistent Modeling for Referring Video Object Segmentation	Jan 9, 2025	Referring Video Object SegmentationSemantic Segmentation	CodeCode Available	0
DTOS: Dynamic Time Object Sensing with Large Multimodal Model	Jan 1, 2025	Moment RetrievalReferring Video Object Segmentation	CodeCode Available	0

Show:10 25 50

← PrevPage 2 of 3Next →

No leaderboard results yet.