Video Retrieval

The objective of video retrieval is as follows: given a text query and a pool of candidate videos, select the video which corresponds to the text query. Typically, the videos are returned as a ranked list of candidates and scored via document retrieval metrics.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 486 papers

Title	Date	Tasks	Status	Hype
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding	Mar 22, 2024	Action ClassificationAction Recognition	CodeCode Available	7
mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video	Feb 1, 2023	Action ClassificationImage Classification	CodeCode Available	4
InternVideo: General Video Foundation Models via Generative and Discriminative Learning	Dec 6, 2022	Action ClassificationAction Recognition	CodeCode Available	4
VideoRoPE: What Makes for Good Video Rotary Position Embedding?	Feb 7, 2025	HallucinationPosition	CodeCode Available	3
Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension	Nov 20, 2024	GPUMME	CodeCode Available	3
Composed Multi-modal Retrieval: A Survey of Approaches and Applications	Mar 3, 2025	Cross-Modal RetrievalData Augmentation	CodeCode Available	2
Gramian Multimodal Representation Learning and Alignment	Dec 16, 2024	Contrastive LearningRepresentation Learning	CodeCode Available	2
Explore the Limits of Omni-modal Pretraining at Scale	Jun 13, 2024	Language ModelingLanguage Modelling	CodeCode Available	2
Composed Video Retrieval via Enriched Context and Discriminative Embeddings	Mar 25, 2024	Composed Video Retrieval (CoVR)Retrieval	CodeCode Available	2
EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World	Mar 24, 2024	Action AnticipationAction Quality Assessment	CodeCode Available	2
vid-TLDR: Training Free Token merging for Light-weight Video Transformer	Mar 20, 2024	Action RecognitionComputational Efficiency	CodeCode Available	2
Multi-granularity Correspondence Learning from Long-term Noisy Videos	Jan 30, 2024	Action SegmentationLong Video Retrieval (Background Removed)	CodeCode Available	2
Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation	Jul 13, 2023	RetrievalVideo Generation	CodeCode Available	2
VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset	May 29, 2023	Audio captioningAudio-Visual Captioning	CodeCode Available	2
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset	Apr 17, 2023	Audio captioningAudio-Video Question Answering (AVQA)	CodeCode Available	2
Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?	Dec 31, 2022	Data AugmentationRetrieval	CodeCode Available	2
X^2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks	Nov 22, 2022	AllCross-Modal Retrieval	CodeCode Available	2
Long-Form Video-Language Pre-Training with Multimodal Temporal Contrastive Learning	Oct 12, 2022	Contrastive LearningForm	CodeCode Available	2
CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment	Sep 14, 2022	RetrievalText Retrieval	CodeCode Available	2
Revealing Single Frame Bias for Video-and-Language Learning	Jun 7, 2022	Action RecognitionFine-grained Action Recognition	CodeCode Available	2
All in One: Exploring Unified Video-Language Pre-training	Mar 14, 2022	AllLanguage Modelling	CodeCode Available	2
LoVR: A Benchmark for Long Video Retrieval in Multimodal Contexts	May 20, 2025	Caption GenerationRetrieval	CodeCode Available	1
Video-GPT via Next Clip Diffusion	May 18, 2025	DenoisingImage Animation	CodeCode Available	1
StableFusion: Continual Video Retrieval via Frame Adaptation	Mar 13, 2025	Continual LearningMixture-of-Experts	CodeCode Available	1
Text Proxy: Decomposing Retrieval from a 1-to-N Relationship into N 1-to-1 Relationships for Text-Video Retrieval	Oct 9, 2024	RetrievalText Retrieval	CodeCode Available	1
TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval	Sep 2, 2024	GPURetrieval	CodeCode Available	1
T2VIndexer: A Generative Video Indexer for Efficient Text-Video Retrieval	Aug 21, 2024	RetrievalVideo Retrieval	CodeCode Available	1
MUSE: Mamba is Efficient Multi-scale Learner for Text-video Retrieval	Aug 20, 2024	MambaNatural Language Queries	CodeCode Available	1
EgoCVR: An Egocentric Benchmark for Fine-Grained Composed Video Retrieval	Jul 23, 2024	Re-RankingRetrieval	CodeCode Available	1
Referring Atomic Video Action Recognition	Jul 2, 2024	Action LocalizationAction Recognition	CodeCode Available	1
GMMFormer v2: An Uncertainty-aware Framework for Partially Relevant Video Retrieval	May 22, 2024	Partially Relevant Video RetrievalRetrieval	CodeCode Available	1
Text-Video Retrieval with Global-Local Semantic Consistent Learning	May 21, 2024	Concept AlignmentRetrieval	CodeCode Available	1
DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval	Jan 19, 2024	RetrievalVideo Retrieval	CodeCode Available	1
Towards Efficient and Effective Text-to-Video Retrieval with Coarse-to-Fine Visual Representation Learning	Jan 1, 2024	Representation LearningRetrieval	CodeCode Available	1
Holistic Features are almost Sufficient for Text-to-Video Retrieval	Jan 1, 2024	Retrievaltext similarity	CodeCode Available	1
Shot2Story20K: A New Benchmark for Comprehensive Understanding of Multi-shot Videos	Dec 16, 2023	Video Captioningvideo narration captioning	CodeCode Available	1
Let All be Whitened: Multi-teacher Distillation for Efficient Visual Retrieval	Dec 15, 2023	AllImage Retrieval	CodeCode Available	1
RTQ: Rethinking Video-language Understanding Based on Image-text Model	Dec 1, 2023	Video CaptioningVideo Question Answering	CodeCode Available	1
Side4Video: Spatial-Temporal Side Network for Memory-Efficient Image-to-Video Transfer Learning	Nov 27, 2023	Action ClassificationAction Recognition	CodeCode Available	1
VideoCon: Robust Video-Language Alignment via Contrast Captions	Nov 15, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language Understanding	Oct 29, 2023	FormLanguage Modelling	CodeCode Available	1
Building an Open-Vocabulary Video CLIP Model with Better Architectures, Optimization and Data	Oct 8, 2023	Action RecognitionContinual Learning	CodeCode Available	1
GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient Partially Relevant Video Retrieval	Oct 8, 2023	Partially Relevant Video RetrievalRetrieval	CodeCode Available	1
HowToCaption: Prompting LLMs to Transform Video Annotations at Scale	Oct 7, 2023	Automatic Speech RecognitionVideo Captioning	CodeCode Available	1
Prototype-based Aleatoric Uncertainty Quantification for Cross-modal Retrieval	Sep 29, 2023	Cross-Modal RetrievalImage-text matching	CodeCode Available	1
Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning	Sep 20, 2023	Contrastive LearningRetrieval	CodeCode Available	1
Unified Coarse-to-Fine Alignment for Video-Text Retrieval	Sep 18, 2023	RetrievalText Retrieval	CodeCode Available	1
In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video Retrieval	Sep 16, 2023	RetrievalStyle Transfer	CodeCode Available	1
CoVR-2: Automatic Data Construction for Composed Video Retrieval	Aug 28, 2023	Composed Image Retrieval (CoIR)Composed Video Retrieval (CoVR)	CodeCode Available	1
Simple Baselines for Interactive Video Retrieval with Questions and Answers	Aug 21, 2023	Question AnsweringRetrieval	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 10Next →

All datasets MSR-VTT-1kA DiDeMo MSR-VTT LSMDC ActivityNet MSVD YouCook2 FIVR-200K VATEX QuerYD SSv2-label retrieval SSv2-template retrieval

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	OmniVec	text-to-video R@10	89.4	—	Unverified
2	CLIP4Clip	text-to-video R@10	81.6	—	Unverified
3	OmniVec (pretrained)	text-to-video R@10	78.6	—	Unverified
4	HunYuan_tvr (huge)	text-to-video R@1	62.9	—	Unverified
5	CLIP-ViP	text-to-video R@1	57.7	—	Unverified
6	PIDRo	text-to-video R@1	55.9	—	Unverified
7	DMAE (ViT-B/16)	text-to-video R@1	55.5	—	Unverified
8	HunYuan_tvr	text-to-video R@1	55	—	Unverified
9	MuLTI	text-to-video R@1	54.7	—	Unverified
10	EERCF	text-to-video R@1	54.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Aurora (ours, r=64)	text-to-video R@5	77.4	—	Unverified
2	InternVideo2-6B	text-to-video R@1	74.2	—	Unverified
3	vid-TLDR (UMT-L)	text-to-video R@1	72.3	—	Unverified
4	VAST	text-to-video R@1	72	—	Unverified
5	COSA	text-to-video R@1	70.5	—	Unverified
6	UMT-L (ViT-L/16)	text-to-video R@1	70.4	—	Unverified
7	GRAM	text-to-video R@1	67.3	—	Unverified
8	VALOR	text-to-video R@1	61.5	—	Unverified
9	TESTA (ViT-B/16)	text-to-video R@1	61.2	—	Unverified
10	VindLU	text-to-video R@1	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GRAM	text-to-video R@1	64	—	Unverified
2	VAST	text-to-video R@1	63.9	—	Unverified
3	InternVideo2-6B	text-to-video R@1	62.8	—	Unverified
4	VALOR	text-to-video R@1	59.9	—	Unverified
5	UMT-L (ViT-L/16)	text-to-video R@1	58.8	—	Unverified
6	vid-TLDR (UMT-L)	text-to-video R@1	58.1	—	Unverified
7	COSA	text-to-video R@1	57.9	—	Unverified
8	InternVideo2-6B	text-to-video R@1	55.9	—	Unverified
9	InternVideo	text-to-video R@1	55.2	—	Unverified
10	VLAB	text-to-video R@1	55.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EMCL-Net (Ours)++ LSMDC Rohrbach et al. (2015)	text-to-video R@10	53.7	—	Unverified
2	InternVideo2-6B	text-to-video R@1	46.4	—	Unverified
3	vid-TLDR (UMT-L)	text-to-video R@1	43.1	—	Unverified
4	UMT-L (ViT-L/16)	text-to-video R@1	43	—	Unverified
5	HunYuan_tvr (huge)	text-to-video R@1	40.4	—	Unverified
6	COSA	text-to-video R@1	39.4	—	Unverified
7	mPLUG-2	text-to-video R@1	34.4	—	Unverified
8	VALOR	text-to-video R@1	34.2	—	Unverified
9	InternVideo	text-to-video R@1	34	—	Unverified
10	InternVideo2-6B	text-to-video R@1	33.8	—	Unverified