Video Retrieval

The objective of video retrieval is as follows: given a text query and a pool of candidate videos, select the video which corresponds to the text query. Typically, the videos are returned as a ranked list of candidates and scored via document retrieval metrics.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 486 papers

Title	Date	Tasks	Status
Sound and Visual Representation Learning with Multiple Pretraining Tasks	Jan 4, 2022	Incremental LearningRepresentation Learning	—Unverified
Spacewalk-18: A Benchmark for Multimodal and Long-form Procedural Video Understanding	Nov 30, 2023	FormVideo Retrieval	—Unverified
Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding	Mar 28, 2023	Action LocalizationAction Recognition	—Unverified
Spatio-temporal Video Re-localization by Warp LSTM	May 10, 2019	RetrievalVideo Retrieval	—Unverified
Latent-INR: A Flexible Framework for Implicit Representations of Videos with Discriminative Semantics	Aug 5, 2024	RetrievalVideo Retrieval	—Unverified
SSAN: Separable Self-Attention Network for Video Representation Learning	May 27, 2021	Action RecognitionRepresentation Learning	—Unverified
STAR-GNN: Spatial-Temporal Video Representation for Content-based Retrieval	Aug 15, 2022	Graph Neural NetworkRepresentation Learning	—Unverified
Cross-modal Manifold Cutmix for Self-supervised Video Representation Learning	Dec 7, 2021	Action RecognitionRepresentation Learning	—Unverified
STOA-VLP: Spatial-Temporal Modeling of Object and Action for Video-Language Pre-training	Feb 20, 2023	Language ModellingObject	—Unverified
Strategies for Searching Video Content with Text Queries or Video Examples	Jun 17, 2016	Event DetectionReranking	—Unverified
Support-set bottlenecks for video-text representation learning	Oct 6, 2020	Contrastive LearningRepresentation Learning	—Unverified
SVD: A Large-Scale Short Video Dataset for Near-Duplicate Video Retrieval	Oct 1, 2019	DiversityRetrieval	—Unverified
SwAMP: Swapped Assignment of Multi-Modal Pairs for Cross-Modal Retrieval	Nov 10, 2021	Contrastive LearningCross-Modal Retrieval	—Unverified
Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets	Sep 2, 2024	Video AlignmentVideo Editing	—Unverified
System Analysis And Design For Multimedia Retrieval Systems	Dec 31, 2013	RetrievalVideo Retrieval	—Unverified
TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment	Aug 23, 2021	Action SegmentationContrastive Learning	—Unverified
TeachCLIP: Multi-Grained Teaching for Efficient Text-to-Video Retrieval	Aug 2, 2023	Retrievaltext similarity	—Unverified
Temporal Contrastive Graph Learning for Video Action Recognition and Retrieval	Jan 4, 2021	Action RecognitionContrastive Learning	—Unverified
Temporal Contrastive Learning with Curriculum	Sep 2, 2022	Action RecognitionContrastive Learning	—Unverified
Temporal Modular Networks for Retrieving Complex Compositional Activities in Videos	Sep 1, 2018	RetrievalVideo Retrieval	—Unverified
Temporal Perceiving Video-Language Pre-training	Jan 18, 2023	Action LocalizationContrastive Learning	—Unverified
Text-Adaptive Multiple Visual Prototype Matching for Video-Text Retrieval	Sep 27, 2022	Cross-Modal RetrievalRetrieval	—Unverified
Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval	Mar 26, 2024	Multimodal ReasoningRetrieval	—Unverified
Text-Video Retrieval via Variational Multi-Modal Hypergraph Networks	Jan 6, 2024	RetrievalVariational Inference	—Unverified
The VISIONE Video Search System: Exploiting Off-the-Shelf Text Search Engines for Large-Scale Video Retrieval	Aug 6, 2020	RetrievalText Retrieval	—Unverified
Time-Equivariant Contrastive Video Representation Learning	Dec 7, 2021	Action RecognitionContrastive Learning	—Unverified
Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal Intervention	Sep 17, 2023	Action RecognitionGraph Generation	—Unverified
Towards Efficient and Robust Moment Retrieval System: A Unified Framework for Multi-Granularity Models and Temporal Reranking	Apr 11, 2025	Moment RetrievalQuestion Answering	—Unverified
Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset	Jun 19, 2024	Language ModelingLanguage Modelling	—Unverified
TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba	Feb 21, 2025	image-classificationImage Classification	—Unverified
TRECVID 2019: An Evaluation Campaign to Benchmark Video Activity Detection, Video Captioning and Matching, and Video Search & Retrieval	Sep 21, 2020	Action DetectionActivity Detection	—Unverified
Tree-Augmented Cross-Modal Encoding for Complex-Query Video Retrieval	Jul 6, 2020	RetrievalVideo Retrieval	—Unverified
Tree-based Text-Vision BERT for Video Search in Baidu Video Advertising	Sep 19, 2022	Image RetrievalRetrieval	—Unverified
Two-person interaction detection using body-pose features and multiple instance learning	Jul 16, 2012	Activity RecognitionHuman Activity Recognition	—Unverified
Uncertainty-aware sign language video retrieval with probability distribution modeling	May 30, 2024	RetrievalSign Language Retrieval	—Unverified
Unfolding Videos Dynamics via Taylor Expansion	Sep 4, 2024	Action DetectionAction Recognition	—Unverified
Unified Embedding and Metric Learning for Zero-Exemplar Event Detection	May 5, 2017	Event DetectionMetric Learning	—Unverified
Universal Adversarial Head: Practical Protection against Video Data Leakage	Jun 18, 2021	Deep HashingRetrieval	—Unverified
Unsupervised Data Uncertainty Learning in Visual Retrieval Systems	Feb 7, 2019	RetrievalTriplet	—Unverified
Unsupervised Segmentation of Action Segments in Egocentric Videos using Gaze	Sep 30, 2017	Activity RecognitionRetrieval	—Unverified
Use of Affective Visual Information for Summarization of Human-Centric Videos	Jul 8, 2021	Emotion RecognitionRetrieval	—Unverified
V3C - a Research Video Collection	Oct 11, 2018	ManagementRetrieval	—Unverified
Video 3D Sampling for Self-supervised Representation Learning	Jul 8, 2021	Action RecognitionRepresentation Learning	—Unverified
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding	Sep 28, 2021	Action LocalizationAction Segmentation	—Unverified
VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models	Oct 1, 2024	Hallucinationtext similarity	—Unverified
Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval	Mar 24, 2025	RetrievalText to Video Retrieval	—Unverified
Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding	Sep 29, 2024	DiversityQuestion Answering	—Unverified
Video Editing for Video Retrieval	Feb 4, 2024	RetrievalText Retrieval	—Unverified
Videoprompter: an ensemble of foundational models for zero-shot video understanding	Oct 23, 2023	Action RecognitionDescriptive	—Unverified
Video retrieval based on deep convolutional neural network	Dec 1, 2017	RetrievalTriplet	—Unverified

Show:10 25 50

← PrevPage 8 of 10Next →

All datasets MSR-VTT-1kA DiDeMo MSR-VTT LSMDC ActivityNet MSVD YouCook2 FIVR-200K VATEX QuerYD SSv2-label retrieval SSv2-template retrieval

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	OmniVec	text-to-video R@10	89.4	—	Unverified
2	CLIP4Clip	text-to-video R@10	81.6	—	Unverified
3	OmniVec (pretrained)	text-to-video R@10	78.6	—	Unverified
4	HunYuan_tvr (huge)	text-to-video R@1	62.9	—	Unverified
5	CLIP-ViP	text-to-video R@1	57.7	—	Unverified
6	PIDRo	text-to-video R@1	55.9	—	Unverified
7	DMAE (ViT-B/16)	text-to-video R@1	55.5	—	Unverified
8	HunYuan_tvr	text-to-video R@1	55	—	Unverified
9	MuLTI	text-to-video R@1	54.7	—	Unverified
10	EERCF	text-to-video R@1	54.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Aurora (ours, r=64)	text-to-video R@5	77.4	—	Unverified
2	InternVideo2-6B	text-to-video R@1	74.2	—	Unverified
3	vid-TLDR (UMT-L)	text-to-video R@1	72.3	—	Unverified
4	VAST	text-to-video R@1	72	—	Unverified
5	COSA	text-to-video R@1	70.5	—	Unverified
6	UMT-L (ViT-L/16)	text-to-video R@1	70.4	—	Unverified
7	GRAM	text-to-video R@1	67.3	—	Unverified
8	VALOR	text-to-video R@1	61.5	—	Unverified
9	TESTA (ViT-B/16)	text-to-video R@1	61.2	—	Unverified
10	VindLU	text-to-video R@1	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GRAM	text-to-video R@1	64	—	Unverified
2	VAST	text-to-video R@1	63.9	—	Unverified
3	InternVideo2-6B	text-to-video R@1	62.8	—	Unverified
4	VALOR	text-to-video R@1	59.9	—	Unverified
5	UMT-L (ViT-L/16)	text-to-video R@1	58.8	—	Unverified
6	vid-TLDR (UMT-L)	text-to-video R@1	58.1	—	Unverified
7	COSA	text-to-video R@1	57.9	—	Unverified
8	InternVideo2-6B	text-to-video R@1	55.9	—	Unverified
9	InternVideo	text-to-video R@1	55.2	—	Unverified
10	VLAB	text-to-video R@1	55.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EMCL-Net (Ours)++ LSMDC Rohrbach et al. (2015)	text-to-video R@10	53.7	—	Unverified
2	InternVideo2-6B	text-to-video R@1	46.4	—	Unverified
3	vid-TLDR (UMT-L)	text-to-video R@1	43.1	—	Unverified
4	UMT-L (ViT-L/16)	text-to-video R@1	43	—	Unverified
5	HunYuan_tvr (huge)	text-to-video R@1	40.4	—	Unverified
6	COSA	text-to-video R@1	39.4	—	Unverified
7	mPLUG-2	text-to-video R@1	34.4	—	Unverified
8	VALOR	text-to-video R@1	34.2	—	Unverified
9	InternVideo	text-to-video R@1	34	—	Unverified
10	InternVideo2-6B	text-to-video R@1	33.8	—	Unverified