Zero-Shot Video Retrieval

Zero-shot video retrieval is the task of retrieving relevant videos based on a query (usually in text form) without any prior training on specific examples of those videos. Unlike traditional retrieval methods that rely on supervised learning with annotated datasets, zero-shot retrieval leverages pre-trained models, typically based on large-scale vision-language learning, to understand semantic relationships between textual descriptions and video content.

This approach enables retrieval of unseen video concepts by generalizing knowledge from diverse training data, making it highly useful for domains with limited labeled data, such as broadcast media, surveillance, and historical archives.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 40 papers

Title	Date	Tasks	Status	Hype
Make Your Training Flexible: Towards Deployment-Efficient Video Models	Mar 18, 2025	Action ClassificationZero-Shot Video Retrieval	CodeCode Available	1
Gramian Multimodal Representation Learning and Alignment	Dec 16, 2024	Contrastive LearningRepresentation Learning	CodeCode Available	2
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding	Mar 22, 2024	Action ClassificationAction Recognition	CodeCode Available	7
vid-TLDR: Training Free Token merging for Light-weight Video Transformer	Mar 20, 2024	Action RecognitionComputational Efficiency	CodeCode Available	2
OmniVec2 - A Novel Transformer based Network for Large Scale Multimodal and Multitask Learning	Jan 1, 2024	3D Point Cloud ClassificationAction Classification	—Unverified	0
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks	Dec 21, 2023	Image RetrievalImage-to-Text Retrieval	CodeCode Available	1
HowToCaption: Prompting LLMs to Transform Video Annotations at Scale	Oct 7, 2023	Automatic Speech RecognitionVideo Captioning	CodeCode Available	1
LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment	Oct 3, 2023	Audio ClassificationContrastive Learning	CodeCode Available	4
BT-Adapter: Video Conversation is Feasible Without Video Instruction Tuning	Sep 27, 2023	GPUVideo-based Generative Performance Benchmarking	CodeCode Available	1
VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset	May 29, 2023	Audio captioningAudio-Visual Captioning	CodeCode Available	2

Show:10 25 50

← PrevPage 1 of 4Next →

All datasets MSR-VTT DiDeMo LSMDC MSVD ActivityNet YouCook2 MSR-VTT-full VATEX

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	InternVideo2-1B	text-to-video R@1	70.4	—	Unverified
2	VideoCoCa	text-to-video R@1	53.2	—	Unverified