Referring Video Object Segmentation

Referring video object segmentation aims at segmenting an object in video with language expressions. Unlike the previous video object segmentation, the task exploits a different type of supervision, language expressions, to identify and segment an object referred by the given language expressions in a video.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 74 papers

Title	Date	Tasks	Status	Hype
VideoMolmo: Spatio-Temporal Grounding Meets Pointing	Jun 5, 2025	Autonomous DrivingAutonomous Navigation	CodeCode Available	2
InterRVOS: Interaction-aware Referring Video Object Segmentation	Jun 3, 2025	8kObject	—Unverified	0
Long-RVOS: A Comprehensive Benchmark for Long-term Referring Video Object Segmentation	May 19, 2025	Referring Video Object SegmentationSemantic Segmentation	—Unverified	0
Few-Shot Referring Video Single- and Multi-Object Segmentation via Cross-Modal Affinity with Instance Sequence Matching	Apr 18, 2025	ObjectReferring Video Object Segmentation	CodeCode Available	0
GLUS: Global-Local Reasoning Unified into A Single Large Language Model for Video Segmentation	Apr 10, 2025	Contrastive LearningLanguage Modeling	CodeCode Available	2
The 1st Solution for 4th PVUW MeViS Challenge: Unleashing the Potential of Large Multimodal Models for Referring Video Segmentation	Apr 7, 2025	Inference OptimizationReferring Video Object Segmentation	CodeCode Available	5
4th PVUW MeViS 3rd Place Report: Sa2VA	Apr 1, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
ReferDINO-Plus: 2nd Solution for 4th PVUW MeViS Challenge at CVPR 2025	Mar 30, 2025	ObjectReferring Video Object Segmentation	CodeCode Available	0
Find First, Track Next: Decoupling Identification and Propagation in Referring Video Object Segmentation	Mar 5, 2025	ObjectReferring Video Object Segmentation	CodeCode Available	2
ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations	Jan 24, 2025	DecoderObject	—Unverified	0
MPG-SAM 2: Adapting SAM 2 with Mask Priors and Global Context for Referring Video Object Segmentation	Jan 23, 2025	Referring Expression SegmentationReferring Video Object Segmentation	CodeCode Available	1
InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling	Jan 21, 2025	Object TrackingReferring Expression Segmentation	—Unverified	0
The Devil is in Temporal Token: High Quality Video Reasoning Segmentation	Jan 15, 2025	Reasoning SegmentationReferring Expression Segmentation	CodeCode Available	2
Multi-Context Temporal Consistent Modeling for Referring Video Object Segmentation	Jan 9, 2025	Referring Video Object SegmentationSemantic Segmentation	CodeCode Available	0
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos	Jan 7, 2025	2kLanguage Modeling	CodeCode Available	5
DTOS: Dynamic Time Object Sensing with Large Multimodal Model	Jan 1, 2025	Moment RetrievalReferring Video Object Segmentation	CodeCode Available	0
Semantic and Sequential Alignment for Referring Video Object Segmentation	Jan 1, 2025	Instance SegmentationReferring Video Object Segmentation	—Unverified	0
Decoupled Motion Expression Video Segmentation	Jan 1, 2025	Instance SegmentationReferring Video Object Segmentation	—Unverified	0
Referring Video Object Segmentation via Language-aligned Track Selection	Dec 2, 2024	ObjectObject Tracking	CodeCode Available	1
SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation	Nov 26, 2024	Natural Language UnderstandingReferring Video Object Segmentation	CodeCode Available	3
HyperSeg: Towards Universal Visual Segmentation with Large Language Model	Nov 26, 2024	Language ModelingLarge Language Model	CodeCode Available	2
One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos	Sep 29, 2024	AllImage Segmentation	CodeCode Available	2
LSVOS Challenge Report: Large-scale Complex and Long Video Object Segmentation	Sep 9, 2024	ObjectReferring Video Object Segmentation	—Unverified	0
The 2nd Solution for LSVOS Challenge RVOS Track: Spatial-temporal Refinement for Consistent Semantic Segmentation	Aug 22, 2024	Referring Video Object SegmentationSegmentation	—Unverified	0
The Instance-centric Transformer for the RVOS Track of LSVOS Challenge: 3rd Place Solution	Aug 20, 2024	Referring Video Object SegmentationRetrieval	—Unverified	0
UNINEXT-Cutie: The 1st Solution for LSVOS Challenge RVOS Track	Aug 19, 2024	Referring Video Object SegmentationSemantic Segmentation	—Unverified	0
VISA: Reasoning Video Object Segmentation via Large Language Models	Jul 16, 2024	DecoderObject	CodeCode Available	3
ActionVOS: Actions as Prompts for Video Object Segmentation	Jul 10, 2024	ObjectReferring Video Object Segmentation	CodeCode Available	1
2nd Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation	Jun 20, 2024	Instance SegmentationReferring Video Object Segmentation	—Unverified	0
GroPrompt: Efficient Grounded Prompting and Adaptation for Referring Video Object Segmentation	Jun 18, 2024	Contrastive LearningObject	—Unverified	0
1st Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation	Jun 11, 2024	Referring Video Object SegmentationSegmentation	CodeCode Available	1
3rd Place Solution for MeViS Track in CVPR 2024 PVUW workshop: Motion Expression guided Video Segmentation	Jun 7, 2024	Referring Video Object SegmentationSemantic Segmentation	—Unverified	0
Harnessing Vision-Language Pretrained Models with Temporal-Aware Adaptation for Referring Video Object Segmentation	May 17, 2024	Referring Expression SegmentationReferring Video Object Segmentation	—Unverified	0
Vision-Aware Text Features in Referring Image Segmentation: From Object Understanding to Context Understanding	Apr 12, 2024	DecoderImage Segmentation	CodeCode Available	0
Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation	Apr 4, 2024	Contrastive LearningReferring Expression	CodeCode Available	2
Temporally Consistent Referring Video Object Segmentation with Hybrid Memory	Mar 28, 2024	HTRObject	CodeCode Available	1
Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation	Mar 18, 2024	Referring Video Object SegmentationSemantic Segmentation	CodeCode Available	1
UniVS: Unified and Universal Video Segmentation with Prompts as Queries	Feb 28, 2024	DecoderReferring Expression Segmentation	CodeCode Available	3
1st Place Solution for 5th LSVOS Challenge: Referring Video Object Segmentation	Jan 1, 2024	ObjectReferring Video Object Segmentation	CodeCode Available	1
Tracking with Human-Intent Reasoning	Dec 29, 2023	Language ModellingObject	CodeCode Available	1
UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces	Dec 25, 2023	Image SegmentationObject	CodeCode Available	2
General Object Foundation Model for Images and Videos at Scale	Dec 14, 2023	Instance SegmentationLong-tail Video Object Segmentation	CodeCode Available	3
Fully Transformer-Equipped Architecture for End-to-End Referring Video Object Segmentation	Sep 21, 2023	ObjectReferring Video Object Segmentation	—Unverified	0
Temporal Collection and Distribution for Referring Video Object Segmentation	Sep 7, 2023	ObjectReferring Video Object Segmentation	—Unverified	0
Tracking Anything with Decoupled Video Segmentation	Sep 7, 2023	Open-Vocabulary Video SegmentationOpen-World Video Segmentation	CodeCode Available	3
Learning Cross-Modal Affinity for Referring Video Object Segmentation Targeting Limited Samples	Sep 5, 2023	Referring Video Object SegmentationSemantic Segmentation	CodeCode Available	0
MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions	Aug 16, 2023	Motion Expressions Guided Video SegmentationObject	CodeCode Available	2
Expression Prompt Collaboration Transformer for Universal Referring Video Object Segmentation	Aug 8, 2023	Contrastive LearningObject	CodeCode Available	0
Learning Referring Video Object Segmentation from Weak Annotation	Aug 4, 2023	Contrastive LearningObject	—Unverified	0
LISA: Reasoning Segmentation via Large Language Model	Aug 1, 2023	Language ModelingLanguage Modelling	CodeCode Available	4

Show:10 25 50

← PrevPage 1 of 2Next →

No leaderboard results yet.