Moment Retrieval

Moment retrieval can de defined as the task of "localizing moments in a video given a user query".

Description from: QVHIGHLIGHTS: Detecting Moments and Highlights in Videos via Natural Language Queries

Image credit: QVHIGHLIGHTS: Detecting Moments and Highlights in Videos via Natural Language Queries

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–132 of 132 papers

Title	Date	Tasks	Status
FedVMR: A New Federated Learning method for Video Moment Retrieval	Oct 28, 2022	Federated LearningMoment Retrieval	—Unverified
2DP-2MRC: 2-Dimensional Pointer-based Machine Reading Comprehension Method for Multimodal Moment Retrieval	Jun 10, 2024	Boundary DetectionMachine Reading Comprehension	—Unverified
Towards Efficient and Robust Moment Retrieval System: A Unified Framework for Multi-Granularity Models and Temporal Reranking	Apr 11, 2025	Moment RetrievalQuestion Answering	—Unverified
Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection to Image-Text Pre-Training	Feb 28, 2023	Moment RetrievalRetrieval	—Unverified
Fast Video Moment Retrieval	Jan 1, 2021	Moment RetrievalRetrieval	—Unverified
Faster Video Moment Retrieval with Point-Level Supervision	May 23, 2023	Moment RetrievalNatural Language Queries	—Unverified
Zero-shot Video Moment Retrieval via Off-the-shelf Multimodal Large Language Models	Jan 14, 2025	Moment RetrievalRetrieval	—Unverified
Event-aware Video Corpus Moment Retrieval	Feb 21, 2024	Contrastive LearningMoment Retrieval	—Unverified
EA-VTR: Event-Aware Video-Text Retrieval	Jul 10, 2024	Action RecognitionContrastive Learning	—Unverified
EAGLE: Egocentric AGgregated Language-video Engine	Sep 26, 2024	Action RecognitionActivity Recognition	—Unverified
D&M: Enriching E-commerce Videos with Sound Effects by Key Moment Detection and SFX Matching	Aug 23, 2024	Highlight DetectionMoment Retrieval	—Unverified
UnLoc: A Unified Framework for Video Localization Tasks	Aug 21, 2023	Action SegmentationMoment Retrieval	—Unverified
Disentangle and denoise: Tackling context misalignment for video moment retrieval	Aug 14, 2024	DenoisingDisentanglement	—Unverified
DiffusionVMR: Diffusion Model for Joint Video Moment Retrieval and Highlight Detection	Aug 29, 2023	DenoisingHighlight Detection	—Unverified
DeSPITE: Exploring Contrastive Deep Skeleton-Pointcloud-IMU-Text Embeddings for Advanced Point Cloud Human Activity Understanding	Jun 16, 2025	Activity RecognitionHuman Activity Recognition	—Unverified
DAVE: Diverse Atomic Visual Elements Dataset with High Representation of Vulnerable Road Users in Complex and Unpredictable Environments	Dec 28, 2024	Action LocalizationAction Recognition	—Unverified
Cross-Lingual Cross-Modal Consolidation for Effective Multilingual Video Corpus Moment Retrieval	Jul 1, 2022	Moment RetrievalRetrieval	—Unverified
Video Moment Retrieval via Natural Language Queries	Sep 4, 2020	Moment RetrievalNatural Language Queries	—Unverified
Video Moment Retrieval with Text Query Considering Many-to-Many Correspondence Using Potentially Relevant Pair	Jun 25, 2021	Moment RetrievalRetrieval	—Unverified
Context-Enhanced Video Moment Retrieval with Large Language Models	May 21, 2024	cross-modal alignmentLanguage Modeling	—Unverified
ViSeRet: A simple yet effective approach to moment retrieval via fine-grained video segmentation	Oct 11, 2021	Moment RetrievalRetrieval	—Unverified
Coarse to Fine: Video Retrieval before Moment Localization	Oct 14, 2021	Moment RetrievalRetrieval	—Unverified
AxIoU: An Axiomatically Justified Measure for Video Moment Retrieval	Mar 30, 2022	Moment RetrievalRetrieval	—Unverified
A Survey on Video Moment Localization	Jun 13, 2023	Action LocalizationMoment Retrieval	—Unverified
Agent-based Video Trimming	Dec 12, 2024	Highlight DetectionMoment Retrieval	—Unverified
Multi-scale 2D Representation Learning for weakly-supervised moment retrieval	Nov 4, 2021	Moment RetrievalRepresentation Learning	—Unverified
Multi-sentence Video Grounding for Long Video Generation	Jul 18, 2024	Moment RetrievalRetrieval	—Unverified
Multi-video Moment Ranking with Multimodal Clue	Jan 29, 2023	Moment RetrievalRetrieval	—Unverified
Zero-shot Video Moment Retrieval With Off-the-Shelf Models	Nov 3, 2022	Moment RetrievalRetrieval	—Unverified
Multi-Modal Relational Graph for Cross-Modal Video Moment Retrieval	Jun 19, 2021	Cross-Modal RetrievalGraph Matching	—Unverified
Multi-modal Fusion and Query Refinement Network for Video Moment Retrieval and Highlight Detection	Jan 18, 2025	AvgHighlight Detection	—Unverified
Multi-Modal Cross-Domain Alignment Network for Video Moment Retrieval	Sep 23, 2022	cross-modal alignmentInformation Retrieval	—Unverified

Show:10 25 50

← PrevPage 3 of 3Next →

All datasets QVHighlights Charades-STA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	R@1 IoU=0.5	66.1	—	Unverified
2	UnLoc-B	R@1 IoU=0.5	64.5	—	Unverified
3	DenoiseLoc	R@1 IoU=0.5	59.27	—	Unverified
4	SG-DETR (w/ PT)	mAP	58.8	—	Unverified
5	SG-DETR	mAP	54.1	—	Unverified
6	LLaVA-MR	mAP	52.73	—	Unverified
7	FlashVTG	mAP	52	—	Unverified
8	InternVideo2-6B	mAP	49.24	—	Unverified
9	CG-DETR (w/ PT)	mAP	47.97	—	Unverified
10	VideoLights-B-pt	mAP	47.94	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SG-DETR (w/ PT)	R@1 IoU=0.5	71.1	—	Unverified
2	LLaVA-MR	R@1 IoU=0.5	70.65	—	Unverified
3	FlashVTG	R@1 IoU=0.5	70.32	—	Unverified
4	SG-DETR	R@1 IoU=0.5	70.2	—	Unverified
5	InternVideo2-6B	R@1 IoU=0.5	70.03	—	Unverified
6	InternVideo2-1B	R@1 IoU=0.5	68.36	—	Unverified
7	VideoChat-T (FT)	R@1 IoU=0.5	67.1	—	Unverified
8	UniMD+Sync.	R@1 IoU=0.5	63.98	—	Unverified
9	LD-DETR	R@1 IoU=0.5	62.58	—	Unverified
10	VideoLights-B-pt	R@1 IoU=0.5	61.96	—	Unverified