Video Retrieval

The objective of video retrieval is as follows: given a text query and a pool of candidate videos, select the video which corresponds to the text query. Typically, the videos are returned as a ranked list of candidates and scored via document retrieval metrics.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 426–450 of 486 papers

Title	Date	Tasks	Status
Inter-intra Variant Dual Representations forSelf-supervised Video Recognition	Jul 2, 2021	Contrastive LearningRepresentation Learning	CodeCode Available
SEA: Sentence Encoder Assembly for Video Retrieval by Textual Queries	Nov 24, 2020	Ad-hoc video searchManagement	CodeCode Available
Screencast Tutorial Video Understanding	Jun 1, 2020	object-detectionObject Detection	CodeCode Available
Rudder: A Cross Lingual Video and Text Retrieval Dataset	Mar 9, 2021	Natural Language QueriesRetrieval	CodeCode Available
ConTra: (Con)text (Tra)nsformer for Cross-Modal Video Retrieval	Oct 9, 2022	RetrievalSentence	CodeCode Available
RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video Retrieval	Jun 26, 2022	Mixture-of-ExpertsRetrieval	CodeCode Available
Hashing with Mutual Information	Mar 2, 2018	Image RetrievalRetrieval	CodeCode Available
Accommodating Audio Modality in CLIP for Multimodal Processing	Mar 12, 2023	AudioCapsContrastive Learning	CodeCode Available
ReSpec: Relevance and Specificity Grounded Online Filtering for Learning on Video-Text Data Streams	Apr 21, 2025	InformativenessLow-latency processing	CodeCode Available
Video-Text Retrieval by Supervised Sparse Multi-Grained Learning	Feb 19, 2023	Representation LearningRetrieval	CodeCode Available
Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language	Apr 1, 2022	DiversityImage Captioning	CodeCode Available
Graph Based Temporal Aggregation for Video Retrieval	Nov 4, 2020	RetrievalVideo Retrieval	CodeCode Available
Contextual Explainable Video Representation: Human Perception-based Understanding	Dec 12, 2022	Action DetectionAction Recognition	CodeCode Available
You were saying? - Spoken Language in the V3C Dataset	Dec 15, 2022	RetrievalVideo Retrieval	CodeCode Available
GOCA: Guided Online Cluster Assignment for Self-Supervised Video Representation Learning	Jul 20, 2022	Action RecognitionClustering	CodeCode Available
Unmasked Teacher: Towards Training-Efficient Video Foundation Models	Mar 28, 2023	Action ClassificationAction Recognition	CodeCode Available
Relevance-based Margin for Contrastively-trained Video Retrieval Models	Apr 27, 2022	Multi-Instance RetrievalNatural Language Queries	CodeCode Available
ContextIQ: A Multimodal Expert-Based Video Retrieval System for Contextual Advertising	Oct 29, 2024	RetrievalText to Video Retrieval	CodeCode Available
Contrastive Alignment with Semantic Gap-Aware Corrections in Text-Video Retrieval	May 18, 2025	Contrastive LearningRetrieval	CodeCode Available
Circulant temporal encoding for video retrieval and temporal alignment	Jun 8, 2015	RetrievalVideo Retrieval	CodeCode Available
Aligning Step-by-Step Instructional Diagrams to Video Demonstrations	Mar 24, 2023	Contrastive LearningImage Retrieval	CodeCode Available
Generating Signed Language Instructions in Large-Scale Dialogue Systems	Oct 17, 2024	RetrievalText Generation	CodeCode Available
Central Similarity Quantization for Efficient Image and Video Retrieval	Aug 1, 2019	QuantizationRetrieval	CodeCode Available
From Play to Replay: Composed Video Retrieval for Temporally Fine-Grained Videos	Jun 5, 2025	Action ClassificationComposed Video Retrieval (CoVR)	CodeCode Available
FIVR: Fine-grained Incident Video Retrieval	Sep 11, 2018	BenchmarkingRetrieval	CodeCode Available

Show:10 25 50

← PrevPage 18 of 20Next →

All datasets MSR-VTT-1kA DiDeMo MSR-VTT LSMDC ActivityNet MSVD YouCook2 FIVR-200K VATEX QuerYD SSv2-label retrieval SSv2-template retrieval

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	OmniVec	text-to-video R@10	89.4	—	Unverified
2	CLIP4Clip	text-to-video R@10	81.6	—	Unverified
3	OmniVec (pretrained)	text-to-video R@10	78.6	—	Unverified
4	HunYuan_tvr (huge)	text-to-video R@1	62.9	—	Unverified
5	CLIP-ViP	text-to-video R@1	57.7	—	Unverified
6	PIDRo	text-to-video R@1	55.9	—	Unverified
7	DMAE (ViT-B/16)	text-to-video R@1	55.5	—	Unverified
8	HunYuan_tvr	text-to-video R@1	55	—	Unverified
9	MuLTI	text-to-video R@1	54.7	—	Unverified
10	EERCF	text-to-video R@1	54.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Aurora (ours, r=64)	text-to-video R@5	77.4	—	Unverified
2	InternVideo2-6B	text-to-video R@1	74.2	—	Unverified
3	vid-TLDR (UMT-L)	text-to-video R@1	72.3	—	Unverified
4	VAST	text-to-video R@1	72	—	Unverified
5	COSA	text-to-video R@1	70.5	—	Unverified
6	UMT-L (ViT-L/16)	text-to-video R@1	70.4	—	Unverified
7	GRAM	text-to-video R@1	67.3	—	Unverified
8	VALOR	text-to-video R@1	61.5	—	Unverified
9	TESTA (ViT-B/16)	text-to-video R@1	61.2	—	Unverified
10	VindLU	text-to-video R@1	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GRAM	text-to-video R@1	64	—	Unverified
2	VAST	text-to-video R@1	63.9	—	Unverified
3	InternVideo2-6B	text-to-video R@1	62.8	—	Unverified
4	VALOR	text-to-video R@1	59.9	—	Unverified
5	UMT-L (ViT-L/16)	text-to-video R@1	58.8	—	Unverified
6	vid-TLDR (UMT-L)	text-to-video R@1	58.1	—	Unverified
7	COSA	text-to-video R@1	57.9	—	Unverified
8	InternVideo2-6B	text-to-video R@1	55.9	—	Unverified
9	InternVideo	text-to-video R@1	55.2	—	Unverified
10	VLAB	text-to-video R@1	55.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EMCL-Net (Ours)++ LSMDC Rohrbach et al. (2015)	text-to-video R@10	53.7	—	Unverified
2	InternVideo2-6B	text-to-video R@1	46.4	—	Unverified
3	vid-TLDR (UMT-L)	text-to-video R@1	43.1	—	Unverified
4	UMT-L (ViT-L/16)	text-to-video R@1	43	—	Unverified
5	HunYuan_tvr (huge)	text-to-video R@1	40.4	—	Unverified
6	COSA	text-to-video R@1	39.4	—	Unverified
7	mPLUG-2	text-to-video R@1	34.4	—	Unverified
8	VALOR	text-to-video R@1	34.2	—	Unverified
9	InternVideo	text-to-video R@1	34	—	Unverified
10	InternVideo2-6B	text-to-video R@1	33.8	—	Unverified