Referring Video Object Segmentation

Referring video object segmentation aims at segmenting an object in video with language expressions. Unlike the previous video object segmentation, the task exploits a different type of supervision, language expressions, to identify and segment an object referred by the given language expressions in a video.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–74 of 74 papers

Title	Date	Tasks	Status
Multi-Level Representation Learning With Semantic Alignment for Referring Video Object Segmentation	Jan 1, 2022	ObjectReferring Expression Segmentation	—Unverified
ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations	Jan 24, 2025	DecoderObject	—Unverified
Bidirectional Correlation-Driven Inter-Frame Interaction Transformer for Referring Video Object Segmentation	Jul 2, 2023	ObjectReferring Video Object Segmentation	—Unverified
Rethinking Cross-modal Interaction from a Top-down Perspective for Referring Video Object Segmentation	Jun 2, 2021	ObjectOne-shot visual object segmentation	—Unverified
Robust Referring Video Object Segmentation with Cyclic Structural Consensus	Jan 1, 2023	ObjectReferring Video Object Segmentation	—Unverified
Decoupled Motion Expression Video Segmentation	Jan 1, 2025	Instance SegmentationReferring Video Object Segmentation	—Unverified
Segment Every Reference Object in Spatial and Temporal Spaces	Jan 1, 2023	Image SegmentationObject	—Unverified
Semantic and Sequential Alignment for Referring Video Object Segmentation	Jan 1, 2025	Instance SegmentationReferring Video Object Segmentation	—Unverified
Temporal Collection and Distribution for Referring Video Object Segmentation	Sep 7, 2023	ObjectReferring Video Object Segmentation	—Unverified
The 2nd Solution for LSVOS Challenge RVOS Track: Spatial-temporal Refinement for Consistent Semantic Segmentation	Aug 22, 2024	Referring Video Object SegmentationSegmentation	—Unverified
The Instance-centric Transformer for the RVOS Track of LSVOS Challenge: 3rd Place Solution	Aug 20, 2024	Referring Video Object SegmentationRetrieval	—Unverified
The Second Place Solution for The 4th Large-scale Video Object Segmentation Challenge--Track 3: Referring Video Object Segmentation	Jun 24, 2022	Objectobject-detection	—Unverified
3rd Place Solution for MeViS Track in CVPR 2024 PVUW workshop: Motion Expression guided Video Segmentation	Jun 7, 2024	Referring Video Object SegmentationSemantic Segmentation	—Unverified
Fully Transformer-Equipped Architecture for End-to-End Referring Video Object Segmentation	Sep 21, 2023	ObjectReferring Video Object Segmentation	—Unverified
Harnessing Vision-Language Pretrained Models with Temporal-Aware Adaptation for Referring Video Object Segmentation	May 17, 2024	Referring Expression SegmentationReferring Video Object Segmentation	—Unverified
HTML: Hybrid Temporal-scale Multimodal Learning Framework for Referring Video Object Segmentation	Jan 1, 2023	multimodal interactionObject	—Unverified
Expression Prompt Collaboration Transformer for Universal Referring Video Object Segmentation	Aug 8, 2023	Contrastive LearningObject	CodeCode Available
Learning Cross-Modal Affinity for Referring Video Object Segmentation Targeting Limited Samples	Sep 5, 2023	Referring Video Object SegmentationSemantic Segmentation	CodeCode Available
Cross-Modal Self-Attention Network for Referring Image Segmentation	Apr 9, 2019	Image SegmentationReferring Expression	CodeCode Available
Few-Shot Referring Video Single- and Multi-Object Segmentation via Cross-Modal Affinity with Instance Sequence Matching	Apr 18, 2025	ObjectReferring Video Object Segmentation	CodeCode Available
Vision-Aware Text Features in Referring Image Segmentation: From Object Understanding to Context Understanding	Apr 12, 2024	DecoderImage Segmentation	CodeCode Available
ReferDINO-Plus: 2nd Solution for 4th PVUW MeViS Challenge at CVPR 2025	Mar 30, 2025	ObjectReferring Video Object Segmentation	CodeCode Available
DTOS: Dynamic Time Object Sensing with Large Multimodal Model	Jan 1, 2025	Moment RetrievalReferring Video Object Segmentation	CodeCode Available
Multi-Context Temporal Consistent Modeling for Referring Video Object Segmentation	Jan 9, 2025	Referring Video Object SegmentationSemantic Segmentation	CodeCode Available

Show:10 25 50

← PrevPage 3 of 3Next →

No leaderboard results yet.