Moment Retrieval

Moment retrieval can de defined as the task of "localizing moments in a video given a user query".

Description from: QVHIGHLIGHTS: Detecting Moments and Highlights in Videos via Natural Language Queries

Image credit: QVHIGHLIGHTS: Detecting Moments and Highlights in Videos via Natural Language Queries

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 132 papers

Title	Date	Tasks	Status	Hype	Score
Video Moment Retrieval from Text Queries via Single Frame Annotation	Apr 20, 2022	Contrastive LearningMoment Retrieval	CodeCode Available	1	5
Watch Video, Catch Keyword: Context-aware Keyword Attention for Moment Retrieval and Highlight Detection	Jan 5, 2025	Contrastive LearningHighlight Detection	CodeCode Available	1	5
Deconfounded Video Moment Retrieval with Causal Intervention	Jun 3, 2021	Moment RetrievalRetrieval	CodeCode Available	1	5
VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval	Dec 2, 2024	Highlight DetectionMoment Retrieval	CodeCode Available	1	5
Detecting Moments and Highlights in Videos via Natural Language Queries	Dec 1, 2021	DecoderMoment Retrieval	CodeCode Available	1	5
Cross-modal Contrastive Learning with Asymmetric Co-attention Network for Video Moment Retrieval	Dec 12, 2023	Contrastive LearningMoment Retrieval	CodeCode Available	0	5
Anchor-Aware Similarity Cohesion in Target Frames Enables Predicting Temporal Moment Boundaries in 2D	Jan 1, 2025	Moment RetrievalSemantic Similarity	CodeCode Available	0	5
Boundary-Denoising for Video Activity Localization	Apr 6, 2023	Action DetectionDecoder	CodeCode Available	0	5
Cross-Modal Interaction Networks for Query-Based Moment Retrieval in Videos	Jun 6, 2019	Moment RetrievalNatural Language Queries	CodeCode Available	0	5
DTOS: Dynamic Time Object Sensing with Large Multimodal Model	Jan 1, 2025	Moment RetrievalReferring Video Object Segmentation	CodeCode Available	0	5
Exploring Temporal Concurrency for Video-Language Representation Learning	Jan 1, 2023	Dynamic Time WarpingMetric Learning	CodeCode Available	0	5
Going for GOAL: A Resource for Grounded Football Commentaries	Nov 8, 2022	Moment RetrievalRetrieval	CodeCode Available	0	5
Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement	Feb 21, 2024	Moment RetrievalRetrieval	CodeCode Available	0	5
Language-Conditioned Change-point Detection to Identify Sub-Tasks in Robotics Domains	Sep 1, 2023	Change Point DetectionInstruction Following	CodeCode Available	0	5
LLaVA-MR: Large Language-and-Vision Assistant for Video Moment Retrieval	Nov 21, 2024	Moment RetrievalNatural Language Moment Retrieval	CodeCode Available	0	5
Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval	Oct 23, 2022	Moment RetrievalMultimodal Reasoning	CodeCode Available	0	5
Moment of Untruth: Dealing with Negative Queries in Video Moment Retrieval	Feb 12, 2025	AvgMoment Retrieval	CodeCode Available	0	5
MVMR: A New Framework for Evaluating Faithfulness of Video Moment Retrieval against Multiple Distractors	Aug 15, 2023	Contrastive LearningMisinformation	CodeCode Available	0	5
SHINE: Saliency-aware HIerarchical NEgative Ranking for Compositional Temporal Grounding	Jul 6, 2024	Language ModelingLanguage Modelling	CodeCode Available	0	5
Show and Guide: Instructional-Plan Grounded Vision and Language Model	Sep 27, 2024	Language ModelingLanguage Modelling	CodeCode Available	0	5
SimVTP: Simple Video Text Pre-training with Masked Autoencoders	Dec 7, 2022	Contrastive Learningcross-modal alignment	CodeCode Available	0	5
Towards Diverse Temporal Grounding under Single Positive Labels	Mar 12, 2023	Moment RetrievalRetrieval	CodeCode Available	0	5
TVR-Ranking: A Dataset for Ranked Video Moment Retrieval with Imprecise Queries	Jul 9, 2024	Moment RetrievalRetrieval	CodeCode Available	0	5
Weakly Supervised Video Moment Retrieval From Text Queries	Apr 5, 2019	Moment RetrievalNatural Language Queries	CodeCode Available	0	5
MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval	Feb 18, 2025	Action RecognitionMoment Retrieval	—Unverified	0	0
QD-VMR: Query Debiasing with Contextual Understanding Enhancement for Video Moment Retrieval	Aug 23, 2024	Contrastive LearningMoment Retrieval	—Unverified	0	0
Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning	Dec 18, 2024	Moment RetrievalMulti-Task Learning	—Unverified	0	0
MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval	Jun 25, 2024	cross-modal alignmentMoment Retrieval	—Unverified	0	0
MAN: Moment Alignment Network for Natural Language Moment Retrieval via Iterative Graph Adjustment	Nov 30, 2018	Moment RetrievalNatural Language Moment Retrieval	—Unverified	0	0
R^2-Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding	Apr 2, 2024	Highlight DetectionMoment Retrieval	—Unverified	0	0
R^2-Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding	Mar 31, 2024	Highlight DetectionMoment Retrieval	—Unverified	0	0
Leveraging Generative Language Models for Weakly Supervised Sentence Component Analysis in Video-Language Joint Learning	Dec 10, 2023	Language ModelingLanguage Modelling	—Unverified	0	0
Retrieval Augmented Generation Evaluation for Health Documents	May 7, 2025	Moment RetrievalRAG	—Unverified	0	0
Language Guided Networks for Cross-modal Moment Retrieval	Jun 18, 2020	Moment RetrievalRetrieval	—Unverified	0	0
SCANet: Scene Complexity Aware Network for Weakly-Supervised Video Moment Retrieval	Oct 8, 2023	Moment RetrievalRetrieval	—Unverified	0	0
Interactive Video Corpus Moment Retrieval using Reinforcement Learning	Feb 19, 2023	Moment Retrievalreinforcement-learning	—Unverified	0	0
Weakly-Supervised Video Moment Retrieval via Semantic Completion Network	Nov 19, 2019	Moment RetrievalRetrieval	—Unverified	0	0
wMAN: WEAKLY-SUPERVISED MOMENT ALIGNMENT NETWORK FOR TEXT-BASED VIDEO SEGMENT RETRIEVAL	Sep 25, 2019	Moment RetrievalRetrieval	—Unverified	0	0
LoGAN: Latent Graph Co-Attention Network for Weakly-Supervised Video Moment Retrieval	Sep 27, 2019	Moment RetrievalRetrieval	—Unverified	0	0
SLVideo: A Sign Language Video Moment Retrieval Framework	Jul 22, 2024	Moment RetrievalRetrieval	—Unverified	0	0
Hybrid-Learning Video Moment Retrieval across Multi-Domain Labels	Jun 3, 2024	Moment RetrievalRetrieval	—Unverified	0	0
Grounding-MD: Grounded Video-language Pre-training for Open-World Moment Detection	Apr 20, 2025	Action DetectionDecoder	—Unverified	0	0
Temporal Perceiving Video-Language Pre-training	Jan 18, 2023	Action LocalizationContrastive Learning	—Unverified	0	0
Text-based Localization of Moments in a Video Corpus	Aug 20, 2020	Moment RetrievalRetrieval	—Unverified	0	0
The Devil is in the Spurious Correlation: Boosting Moment Retrieval via Temporal Dynamic Learning	Jan 13, 2025	Moment RetrievalRetrieval	—Unverified	0	0
Temporal Sentence Grounding in Videos: A Survey and Future Directions	Jan 20, 2022	Moment RetrievalRetrieval	—Unverified	0	0
Graph Neural Network for Video Relocalization	Jul 20, 2020	Graph Neural NetworkMoment Retrieval	—Unverified	0	0
GPTSee: Enhancing Moment Retrieval and Highlight Detection via Description-Based Similarity Features	Mar 3, 2024	DecoderHighlight Detection	—Unverified	0	0
Generative Video Diffusion for Unseen Cross-Domain Video Moment Retrieval	Jan 24, 2024	Moment RetrievalRetrieval	—Unverified	0	0
Generating Adjacency Matrix for Video Relocalization	Aug 19, 2020	Moment Retrieval	—Unverified	0	0

Show:10 25 50

← PrevPage 2 of 3Next →

All datasets QVHighlights Charades-STA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	R@1 IoU=0.5	66.1	—	Unverified
2	UnLoc-B	R@1 IoU=0.5	64.5	—	Unverified
3	DenoiseLoc	R@1 IoU=0.5	59.27	—	Unverified
4	SG-DETR (w/ PT)	mAP	58.8	—	Unverified
5	SG-DETR	mAP	54.1	—	Unverified
6	LLaVA-MR	mAP	52.73	—	Unverified
7	FlashVTG	mAP	52	—	Unverified
8	InternVideo2-6B	mAP	49.24	—	Unverified
9	CG-DETR (w/ PT)	mAP	47.97	—	Unverified
10	VideoLights-B-pt	mAP	47.94	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SG-DETR (w/ PT)	R@1 IoU=0.5	71.1	—	Unverified
2	LLaVA-MR	R@1 IoU=0.5	70.65	—	Unverified
3	FlashVTG	R@1 IoU=0.5	70.32	—	Unverified
4	SG-DETR	R@1 IoU=0.5	70.2	—	Unverified
5	InternVideo2-6B	R@1 IoU=0.5	70.03	—	Unverified
6	InternVideo2-1B	R@1 IoU=0.5	68.36	—	Unverified
7	VideoChat-T (FT)	R@1 IoU=0.5	67.1	—	Unverified
8	UniMD+Sync.	R@1 IoU=0.5	63.98	—	Unverified
9	LD-DETR	R@1 IoU=0.5	62.58	—	Unverified
10	VideoLights-B-pt	R@1 IoU=0.5	61.96	—	Unverified