Moment Retrieval

Moment retrieval can de defined as the task of "localizing moments in a video given a user query".

Description from: QVHIGHLIGHTS: Detecting Moments and Highlights in Videos via Natural Language Queries

Image credit: QVHIGHLIGHTS: Detecting Moments and Highlights in Videos via Natural Language Queries

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 132 papers

Title	Date	Tasks	Status	Hype
R^2-Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding	Mar 31, 2024	Highlight DetectionMoment Retrieval	—Unverified	0
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding	Mar 22, 2024	Action ClassificationAction Recognition	CodeCode Available	7
Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding	Mar 14, 2024	MambaMoment Retrieval	CodeCode Available	3
GPTSee: Enhancing Moment Retrieval and Highlight Detection via Description-Based Similarity Features	Mar 3, 2024	DecoderHighlight Detection	—Unverified	0
Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement	Feb 21, 2024	Moment RetrievalRetrieval	CodeCode Available	0
Event-aware Video Corpus Moment Retrieval	Feb 21, 2024	Contrastive LearningMoment Retrieval	—Unverified	0
Generative Video Diffusion for Unseen Cross-Domain Video Moment Retrieval	Jan 24, 2024	Moment RetrievalRetrieval	—Unverified	0
TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and Highlight Detection	Jan 4, 2024	Highlight DetectionMoment Retrieval	CodeCode Available	2
Towards Balanced Alignment: Modal-Enhanced Semantic Modeling for Video Moment Retrieval	Dec 19, 2023	cross-modal alignmentMoment Retrieval	CodeCode Available	1
Cross-modal Contrastive Learning with Asymmetric Co-attention Network for Video Moment Retrieval	Dec 12, 2023	Contrastive LearningMoment Retrieval	CodeCode Available	0
Leveraging Generative Language Models for Weakly Supervised Sentence Component Analysis in Video-Language Joint Learning	Dec 10, 2023	Language ModelingLanguage Modelling	—Unverified	0
BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sentence Grounding in Videos	Nov 30, 2023	Moment RetrievalNatural Language Moment Retrieval	CodeCode Available	1
Bridging the Gap: A Unified Video Comprehension Framework for Moment Retrieval and Highlight Detection	Nov 28, 2023	Contrastive LearningHighlight Detection	CodeCode Available	1
Correlation-Guided Query-Dependency Calibration for Video Temporal Grounding	Nov 15, 2023	Highlight DetectionMoment Retrieval	CodeCode Available	2
SCANet: Scene Complexity Aware Network for Weakly-Supervised Video Moment Retrieval	Oct 8, 2023	Moment RetrievalRetrieval	—Unverified	0
Language-Conditioned Change-point Detection to Identify Sub-Tasks in Robotics Domains	Sep 1, 2023	Change Point DetectionInstruction Following	CodeCode Available	0
DiffusionVMR: Diffusion Model for Joint Video Moment Retrieval and Highlight Detection	Aug 29, 2023	DenoisingHighlight Detection	—Unverified	0
UnLoc: A Unified Framework for Video Localization Tasks	Aug 21, 2023	Action SegmentationMoment Retrieval	—Unverified	0
MVMR: A New Framework for Evaluating Faithfulness of Video Moment Retrieval against Multiple Distractors	Aug 15, 2023	Contrastive LearningMisinformation	CodeCode Available	0
UniVTG: Towards Unified Video-Language Temporal Grounding	Jul 31, 2023	Highlight DetectionMoment Retrieval	CodeCode Available	2
MomentDiff: Generative Video Moment Retrieval from Random to Real	Jul 6, 2023	Moment RetrievalRetrieval	CodeCode Available	1
A Survey on Video Moment Localization	Jun 13, 2023	Action LocalizationMoment Retrieval	—Unverified	0
Background-aware Moment Detection for Video Moment Retrieval	Jun 5, 2023	Moment RetrievalNatural Language Moment Retrieval	CodeCode Available	1
Faster Video Moment Retrieval with Point-Level Supervision	May 23, 2023	Moment RetrievalNatural Language Queries	—Unverified	0
Joint Moment Retrieval and Highlight Detection Via Natural Language Queries	May 8, 2023	DecoderHighlight Detection	CodeCode Available	1
TMR: Text-to-Motion Retrieval Using Contrastive 3D Human Motion Synthesis	May 2, 2023	Moment RetrievalMotion Generation	CodeCode Available	2
Boundary-Denoising for Video Activity Localization	Apr 6, 2023	Action DetectionDecoder	CodeCode Available	0
Hierarchical Video-Moment Retrieval and Step-Captioning	Mar 29, 2023	Information RetrievalMoment Retrieval	CodeCode Available	1
Query-Dependent Video Representation for Moment Retrieval and Highlight Detection	Mar 24, 2023	Highlight DetectionMoment Retrieval	CodeCode Available	2
Towards Diverse Temporal Grounding under Single Positive Labels	Mar 12, 2023	Moment RetrievalRetrieval	CodeCode Available	0
Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection to Image-Text Pre-Training	Feb 28, 2023	Moment RetrievalRetrieval	—Unverified	0
Interactive Video Corpus Moment Retrieval using Reinforcement Learning	Feb 19, 2023	Moment Retrievalreinforcement-learning	—Unverified	0
Multi-video Moment Ranking with Multimodal Clue	Jan 29, 2023	Moment RetrievalRetrieval	—Unverified	0
Temporal Perceiving Video-Language Pre-training	Jan 18, 2023	Action LocalizationContrastive Learning	—Unverified	0
Exploring Temporal Concurrency for Video-Language Representation Learning	Jan 1, 2023	Dynamic Time WarpingMetric Learning	CodeCode Available	0
Are Binary Annotations Sufficient? Video Moment Retrieval via Hierarchical Uncertainty-Based Active Learning	Jan 1, 2023	Active LearningMoment Retrieval	CodeCode Available	1
SimVTP: Simple Video Text Pre-training with Masked Autoencoders	Dec 7, 2022	Contrastive Learningcross-modal alignment	CodeCode Available	0
Going for GOAL: A Resource for Grounded Football Commentaries	Nov 8, 2022	Moment RetrievalRetrieval	CodeCode Available	0
Zero-shot Video Moment Retrieval With Off-the-Shelf Models	Nov 3, 2022	Moment RetrievalRetrieval	—Unverified	0
FedVMR: A New Federated Learning method for Video Moment Retrieval	Oct 28, 2022	Federated LearningMoment Retrieval	—Unverified	0
Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval	Oct 23, 2022	Moment RetrievalMultimodal Reasoning	CodeCode Available	0
Selective Query-guided Debiasing for Video Corpus Moment Retrieval	Oct 17, 2022	Moment RetrievalRetrieval	CodeCode Available	1
Multi-Modal Cross-Domain Alignment Network for Video Moment Retrieval	Sep 23, 2022	cross-modal alignmentInformation Retrieval	—Unverified	0
Partially Relevant Video Retrieval	Aug 26, 2022	Moment RetrievalMultiple Instance Learning	CodeCode Available	1
Cross-Lingual Cross-Modal Consolidation for Effective Multilingual Video Corpus Moment Retrieval	Jul 1, 2022	Moment RetrievalRetrieval	—Unverified	0
You Need to Read Again: Multi-granularity Perception Network for Moment Retrieval in Videos	May 25, 2022	Moment RetrievalReading Comprehension	CodeCode Available	1
Video Moment Retrieval from Text Queries via Single Frame Annotation	Apr 20, 2022	Contrastive LearningMoment Retrieval	CodeCode Available	1
AxIoU: An Axiomatically Justified Measure for Video Moment Retrieval	Mar 30, 2022	Moment RetrievalRetrieval	—Unverified	0
UMT: Unified Multi-modal Transformers for Joint Video Moment Retrieval and Highlight Detection	Mar 23, 2022	DecoderHighlight Detection	CodeCode Available	2
Temporal Sentence Grounding in Videos: A Survey and Future Directions	Jan 20, 2022	Moment RetrievalRetrieval	—Unverified	0

Show:10 25 50

← PrevPage 2 of 3Next →

All datasets QVHighlights Charades-STA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	R@1 IoU=0.5	66.1	—	Unverified
2	UnLoc-B	R@1 IoU=0.5	64.5	—	Unverified
3	DenoiseLoc	R@1 IoU=0.5	59.27	—	Unverified
4	SG-DETR (w/ PT)	mAP	58.8	—	Unverified
5	SG-DETR	mAP	54.1	—	Unverified
6	LLaVA-MR	mAP	52.73	—	Unverified
7	FlashVTG	mAP	52	—	Unverified
8	InternVideo2-6B	mAP	49.24	—	Unverified
9	CG-DETR (w/ PT)	mAP	47.97	—	Unverified
10	VideoLights-B-pt	mAP	47.94	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SG-DETR (w/ PT)	R@1 IoU=0.5	71.1	—	Unverified
2	LLaVA-MR	R@1 IoU=0.5	70.65	—	Unverified
3	FlashVTG	R@1 IoU=0.5	70.32	—	Unverified
4	SG-DETR	R@1 IoU=0.5	70.2	—	Unverified
5	InternVideo2-6B	R@1 IoU=0.5	70.03	—	Unverified
6	InternVideo2-1B	R@1 IoU=0.5	68.36	—	Unverified
7	VideoChat-T (FT)	R@1 IoU=0.5	67.1	—	Unverified
8	UniMD+Sync.	R@1 IoU=0.5	63.98	—	Unverified
9	LD-DETR	R@1 IoU=0.5	62.58	—	Unverified
10	VideoLights-B-pt	R@1 IoU=0.5	61.96	—	Unverified