Referring Video Object Segmentation

Referring video object segmentation aims at segmenting an object in video with language expressions. Unlike the previous video object segmentation, the task exploits a different type of supervision, language expressions, to identify and segment an object referred by the given language expressions in a video.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–74 of 74 papers

Title	Date	Tasks	Status
GroPrompt: Efficient Grounded Prompting and Adaptation for Referring Video Object Segmentation	Jun 18, 2024	Contrastive LearningObject	—Unverified
UNINEXT-Cutie: The 1st Solution for LSVOS Challenge RVOS Track	Aug 19, 2024	Referring Video Object SegmentationSemantic Segmentation	—Unverified
InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling	Jan 21, 2025	Object TrackingReferring Expression Segmentation	—Unverified
InterRVOS: Interaction-aware Referring Video Object Segmentation	Jun 3, 2025	8kObject	—Unverified
Learning Referring Video Object Segmentation from Weak Annotation	Aug 4, 2023	Contrastive LearningObject	—Unverified
Long-RVOS: A Comprehensive Benchmark for Long-term Referring Video Object Segmentation	May 19, 2025	Referring Video Object SegmentationSemantic Segmentation	—Unverified
LSVOS Challenge Report: Large-scale Complex and Long Video Object Segmentation	Sep 9, 2024	ObjectReferring Video Object Segmentation	—Unverified
2nd Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation	Jun 20, 2024	Instance SegmentationReferring Video Object Segmentation	—Unverified
Multi-Level Representation Learning With Semantic Alignment for Referring Video Object Segmentation	Jan 1, 2022	ObjectReferring Expression Segmentation	—Unverified
ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations	Jan 24, 2025	DecoderObject	—Unverified
Bidirectional Correlation-Driven Inter-Frame Interaction Transformer for Referring Video Object Segmentation	Jul 2, 2023	ObjectReferring Video Object Segmentation	—Unverified
Rethinking Cross-modal Interaction from a Top-down Perspective for Referring Video Object Segmentation	Jun 2, 2021	ObjectOne-shot visual object segmentation	—Unverified
Robust Referring Video Object Segmentation with Cyclic Structural Consensus	Jan 1, 2023	ObjectReferring Video Object Segmentation	—Unverified
Decoupled Motion Expression Video Segmentation	Jan 1, 2025	Instance SegmentationReferring Video Object Segmentation	—Unverified
Segment Every Reference Object in Spatial and Temporal Spaces	Jan 1, 2023	Image SegmentationObject	—Unverified
Semantic and Sequential Alignment for Referring Video Object Segmentation	Jan 1, 2025	Instance SegmentationReferring Video Object Segmentation	—Unverified
Temporal Collection and Distribution for Referring Video Object Segmentation	Sep 7, 2023	ObjectReferring Video Object Segmentation	—Unverified
The 2nd Solution for LSVOS Challenge RVOS Track: Spatial-temporal Refinement for Consistent Semantic Segmentation	Aug 22, 2024	Referring Video Object SegmentationSegmentation	—Unverified
The Instance-centric Transformer for the RVOS Track of LSVOS Challenge: 3rd Place Solution	Aug 20, 2024	Referring Video Object SegmentationRetrieval	—Unverified
The Second Place Solution for The 4th Large-scale Video Object Segmentation Challenge--Track 3: Referring Video Object Segmentation	Jun 24, 2022	Objectobject-detection	—Unverified
3rd Place Solution for MeViS Track in CVPR 2024 PVUW workshop: Motion Expression guided Video Segmentation	Jun 7, 2024	Referring Video Object SegmentationSemantic Segmentation	—Unverified
Fully Transformer-Equipped Architecture for End-to-End Referring Video Object Segmentation	Sep 21, 2023	ObjectReferring Video Object Segmentation	—Unverified
Harnessing Vision-Language Pretrained Models with Temporal-Aware Adaptation for Referring Video Object Segmentation	May 17, 2024	Referring Expression SegmentationReferring Video Object Segmentation	—Unverified
HTML: Hybrid Temporal-scale Multimodal Learning Framework for Referring Video Object Segmentation	Jan 1, 2023	multimodal interactionObject	—Unverified

Show:10 25 50

← PrevPage 3 of 3Next →

No leaderboard results yet.