Text to Video Retrieval

She's gone I can't find her anywhere I'm looking everywhere for her Everywhere is dark

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 75 papers

Title	Date	Tasks	Status	Score
Efficient End-to-End Video Question Answering with Pyramidal Multimodal Transformer	Feb 4, 2023	Computational EfficiencyQuestion Answering	CodeCode Available	5
Fighting FIRe with FIRE: Assessing the Validity of Text-to-Video Retrieval Benchmarks	Oct 10, 2022	RetrievalText to Video Retrieval	—Unverified	0
CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval	Dec 31, 2024	RetrievalText Retrieval	—Unverified	0
Retrieving and Highlighting Action with Spatiotemporal Reference	May 19, 2020	Action RecognitionCross-Modal Retrieval	—Unverified	0
VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners	Dec 9, 2022	Question AnsweringRetrieval	—Unverified	0
Learning text-to-video retrieval from image captioning	Apr 26, 2024	Image CaptioningImage Retrieval	—Unverified	0
Learning Trajectory-Word Alignments for Video-Language Tasks	Jan 5, 2023	Question AnsweringRetrieval	—Unverified	0
Sakuga-42M Dataset: Scaling Up Cartoon Research	May 13, 2024	MambaText to Video Retrieval	—Unverified	0
Leveraging Auxiliary Information in Text-to-Video Retrieval: A Review	May 29, 2025	RetrievalText to Video Retrieval	—Unverified	0
Leveraging Generative Language Models for Weakly Supervised Sentence Component Analysis in Video-Language Joint Learning	Dec 10, 2023	Language ModelingLanguage Modelling	—Unverified	0
MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One More Step Towards Generalization	Mar 14, 2022	RetrievalText to Video Retrieval	—Unverified	0
SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-training	Nov 21, 2022	cross-modal alignmentGPU	—Unverified	0
Support-set bottlenecks for video-text representation learning	Oct 6, 2020	Contrastive LearningRepresentation Learning	—Unverified	0
Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval	Mar 24, 2025	RetrievalText to Video Retrieval	—Unverified	0
Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature Alignment	Jul 24, 2023	RetrievalText to Video Retrieval	—Unverified	0
Multi-Granularity and Multi-modal Feature Interaction Approach for Text Video Retrieval	Jun 21, 2024	RetrievalSentence	—Unverified	0
COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval	Apr 15, 2022	Contrastive LearningCross-Modal Retrieval	—Unverified	0
CUPID: Adaptive Curation of Pre-training Data for Video-and-Language Representation Learning	Apr 1, 2021	Question AnsweringRepresentation Learning	—Unverified	0
TeachCLIP: Multi-Grained Teaching for Efficient Text-to-Video Retrieval	Aug 2, 2023	Retrievaltext similarity	—Unverified	0
Distilling Vision-Language Models on Millions of Videos	Jan 11, 2024	Language ModelingLanguage Modelling	—Unverified	0
Temporal Perceiving Video-Language Pre-training	Jan 18, 2023	Action LocalizationContrastive Learning	—Unverified	0
EA-VTR: Event-Aware Video-Text Retrieval	Jul 10, 2024	Action RecognitionContrastive Learning	—Unverified	0
Q2E: Query-to-Event Decomposition for Zero-Shot Multilingual Text-to-Video Retrieval	Jun 11, 2025	RetrievalText to Video Retrieval	—Unverified	0
An Empirical Study of Frame Selection for Text-to-Video Retrieval	Nov 1, 2023	RetrievalText to Video Retrieval	—Unverified	0
E-ViLM: Efficient Video-Language Model via Masked Video Modeling with Semantic Vector-Quantized Tokenizer	Nov 28, 2023	Language ModelingLanguage Modelling	—Unverified	0

Show:10 25 50

← PrevPage 2 of 2Next →

All datasets Kinetics-GEB+MSR-VTT MSVD-Indonesian

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	FROZEN-revised	mAP	23.39	—	Unverified
2	FROZEN-revised (two-stream)	text-to-video R@1	12.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CLIP4Clip	text-to-video R@1	44.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	X-CLIP (Cross-Lingual)	R@1	32.3	—	Unverified