Zero-Shot Video Retrieval

Zero-shot video retrieval is the task of retrieving relevant videos based on a query (usually in text form) without any prior training on specific examples of those videos. Unlike traditional retrieval methods that rely on supervised learning with annotated datasets, zero-shot retrieval leverages pre-trained models, typically based on large-scale vision-language learning, to understand semantic relationships between textual descriptions and video content.

This approach enables retrieval of unseen video concepts by generalizing knowledge from diverse training data, making it highly useful for domains with limited labeled data, such as broadcast media, surveillance, and historical archives.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–40 of 40 papers

Title	Date	Tasks	Status	Hype	Score
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding	Mar 22, 2024	Action ClassificationAction Recognition	CodeCode Available	7	5
ImageBind: One Embedding Space To Bind Them All	May 9, 2023	AllCross-Modal Retrieval	CodeCode Available	5	5
InternVideo: General Video Foundation Models via Generative and Discriminative Learning	Dec 6, 2022	Action ClassificationAction Recognition	CodeCode Available	4	5
LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment	Oct 3, 2023	Audio ClassificationContrastive Learning	CodeCode Available	4	5
mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video	Feb 1, 2023	Action ClassificationImage Classification	CodeCode Available	4	5
Gramian Multimodal Representation Learning and Alignment	Dec 16, 2024	Contrastive LearningRepresentation Learning	CodeCode Available	2	5
VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset	May 29, 2023	Audio captioningAudio-Visual Captioning	CodeCode Available	2	5
vid-TLDR: Training Free Token merging for Light-weight Video Transformer	Mar 20, 2024	Action RecognitionComputational Efficiency	CodeCode Available	2	5
Revealing Single Frame Bias for Video-and-Language Learning	Jun 7, 2022	Action RecognitionFine-grained Action Recognition	CodeCode Available	2	5
Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval	Apr 1, 2021	RetrievalText Retrieval	CodeCode Available	1	5
HowToCaption: Prompting LLMs to Transform Video Annotations at Scale	Oct 7, 2023	Automatic Speech RecognitionVideo Captioning	CodeCode Available	1	5
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks	Dec 21, 2023	Image RetrievalImage-to-Text Retrieval	CodeCode Available	1	5
Make Your Training Flexible: Towards Deployment-Efficient Video Models	Mar 18, 2025	Action ClassificationZero-Shot Video Retrieval	CodeCode Available	1	5
MILES: Visual BERT Pre-training with Injected Language Semantics for Video-text Retrieval	Apr 26, 2022	Action RecognitionRetrieval	CodeCode Available	1	5
Multi-modal Transformer for Video Retrieval	Jul 21, 2020	Natural Language QueriesRetrieval	CodeCode Available	1	5
VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling	Nov 24, 2021	Question AnsweringRetrieval	CodeCode Available	1	5
Align and Prompt: Video-and-Language Pre-training with Entity Prompts	Dec 17, 2021	cross-modal alignmentEntity Alignment	CodeCode Available	1	5
Bridging Video-text Retrieval with Multiple Choice Questions	Jan 13, 2022	Action RecognitionLinear evaluation	CodeCode Available	1	5
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval	Apr 18, 2021	RetrievalText Retrieval	CodeCode Available	1	5
Clover: Towards A Unified Video-Language Alignment and Fusion Model	Jul 16, 2022	Language ModelingLanguage Modelling	CodeCode Available	1	5
End-to-End Learning of Visual Representations from Uncurated Instructional Videos	Dec 13, 2019	Action LocalizationAction Recognition	CodeCode Available	1	5
Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval	Dec 8, 2021	Action LocalizationRetrieval	CodeCode Available	1	5
Everything at Once - Multi-Modal Fusion Transformer for Video Retrieval	Jan 1, 2022	Action LocalizationRetrieval	CodeCode Available	1	5
Florence: A New Foundation Model for Computer Vision	Nov 22, 2021	Action ClassificationAction Recognition	CodeCode Available	1	5
Object-aware Video-language Pre-training for Retrieval	Dec 1, 2021	ObjectRetrieval	CodeCode Available	1	5
BT-Adapter: Video Conversation is Feasible Without Video Instruction Tuning	Sep 27, 2023	GPUVideo-based Generative Performance Benchmarking	CodeCode Available	1	5
Seeing What You Miss: Vision-Language Pre-training with Semantic Completion Learning	Nov 24, 2022	cross-modal alignmentImage-text Retrieval	CodeCode Available	1	5
VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text	Apr 22, 2021	Action ClassificationAction Recognition	CodeCode Available	1	5
Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions	Nov 19, 2021	RetrievalSuper-Resolution	CodeCode Available	1	5
Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language	Apr 1, 2022	DiversityImage Captioning	CodeCode Available	0	5
Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning	Mar 6, 2020	Density EstimationNoise Estimation	CodeCode Available	0	5
Unmasked Teacher: Towards Training-Efficient Video Foundation Models	Mar 28, 2023	Action ClassificationAction Recognition	CodeCode Available	0	5
LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval	Jul 11, 2022	Representation LearningRetrieval	—Unverified	0	0
HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training	Dec 30, 2022	cross-modal alignmentTGIF-Action	—Unverified	0	0
OmniVec2 - A Novel Transformer based Network for Large Scale Multimodal and Multitask Learning	Jan 1, 2024	3D Point Cloud ClassificationAction Classification	—Unverified	0	0
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks	Sep 15, 2022	Action ClassificationAction Recognition	—Unverified	0	0
Learning Audio-Video Modalities from Image Captions	Apr 1, 2022	Image CaptioningRetrieval	—Unverified	0	0
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding	Sep 28, 2021	Action LocalizationAction Segmentation	—Unverified	0	0
VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners	Dec 9, 2022	Question AnsweringRetrieval	—Unverified	0	0
TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment	Aug 23, 2021	Action SegmentationContrastive Learning	—Unverified	0	0

Show:10 25 50

All datasets MSR-VTT DiDeMo LSMDC MSVD ActivityNet YouCook2 MSR-VTT-full VATEX

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	InternVideo2-1B	text-to-video R@1	51.9	—	Unverified
2	VAST, HowToCaption-finetuned	text-to-video R@1	50	—	Unverified
3	FluxViT-B	text-to-video R@1	49.9	—	Unverified
4	mPLUG-2	text-to-video R@1	47.1	—	Unverified
5	FluxViT-S	text-to-video R@1	45	—	Unverified
6	LanguageBind(ViT-H/14)	text-to-video R@1	44.8	—	Unverified
7	LanguageBind(ViT-L/14)	text-to-video R@1	42.8	—	Unverified
8	BT-Adapter	text-to-video R@1	40.9	—	Unverified
9	HowToCaption	text-to-video R@1	37.6	—	Unverified
10	Florence	text-to-video R@1	37.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	InternVideo2-1B	text-to-video R@1	57	—	Unverified
2	HiTeA-17M	text-to-video R@1	43.2	—	Unverified
3	LanguageBind(ViT-H/14)	text-to-video R@1	39.9	—	Unverified
4	LanguageBind(ViT-L/14)	text-to-video R@1	39.7	—	Unverified
5	Singularity-17M	text-to-video R@1	37.1	—	Unverified
6	Singularity-5M	text-to-video R@1	36.9	—	Unverified
7	HiTeA-5M	text-to-video R@1	36.1	—	Unverified
8	BT-Adapter	text-to-video R@1	35.6	—	Unverified
9	MILES	text-to-video R@1	27.2	—	Unverified
10	Y. Ge et. al.	text-to-video R@1	25.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	InternVideo2-1B	text-to-video R@1	32	—	Unverified
2	VAST, HowToCaption-finetuned	text-to-video R@1	27.7	—	Unverified
3	BT-Adapter	text-to-video R@1	19.5	—	Unverified
4	HiTeA-17M	text-to-video R@1	18.3	—	Unverified
5	HowToCaption	text-to-video R@1	17.3	—	Unverified
6	Yatai Ji et. al.	text-to-video R@1	17.2	—	Unverified
7	HiTeA-5M	text-to-video R@1	15.5	—	Unverified
8	Y. Ge et. al.	text-to-video R@1	12.2	—	Unverified
9	MILES	text-to-video R@1	11.1	—	Unverified
10	SSML	text-to-video R@1	4.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	InternVideo2-1B	text-to-video R@1	58.1	—	Unverified
2	VAST, HowToCaption-finetuned	text-to-video R@1	54.8	—	Unverified
3	LanguageBind(ViT-L/14)	text-to-video R@1	54.1	—	Unverified
4	LanguageBind(ViT-H/14)	text-to-video R@1	53.9	—	Unverified
5	UMT-L (ViT-L/16)	text-to-video R@1	49	—	Unverified
6	HowToCaption	text-to-video R@1	44.5	—	Unverified
7	MILES	text-to-video R@1	44.4	—	Unverified
8	Y. Ge et. al.	text-to-video R@1	43.6	—	Unverified
9	LaT	text-to-video R@1	36.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	InternVideo2-1B	text-to-video R@1	60.4	—	Unverified
2	LanguageBind(ViT-H/14)	text-to-video R@1	41	—	Unverified
3	LanguageBind(ViT-L/14)	text-to-video R@1	38.4	—	Unverified
4	BT-Adapter	text-to-video R@1	37	—	Unverified
5	VideoCoCa	text-to-video R@1	34.5	—	Unverified
6	Singularity-temporal-5M	text-to-video R@1	30.8	—	Unverified
7	Singularity-temporal-17M	text-to-video R@1	30.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VATT-MBS	text-to-video R@10	45.5	—	Unverified
2	OmniVec2	text-to-video R@1	26.1	—	Unverified
3	Norton	text-to-video R@1	24.2	—	Unverified
4	VideoCOca	text-to-video R@1	20.3	—	Unverified
5	VAST, HowToCaption-finetuned	text-to-video R@1	19.7	—	Unverified
6	MIL-NCE	text-to-video R@1	15.1	—	Unverified
7	HowToCaption	text-to-video R@1	13.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	InternVL-G	text-to-video R@1	46.3	—	Unverified
2	InternVL-C	text-to-video R@1	44.7	—	Unverified
3	VideoCoCa	text-to-video R@1	34.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	InternVideo2-1B	text-to-video R@1	70.4	—	Unverified
2	VideoCoCa	text-to-video R@1	53.2	—	Unverified