Text to Video Retrieval

She's gone I can't find her anywhere I'm looking everywhere for her Everywhere is dark

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 75 papers

Title	Date	Tasks	Status	Hype
X^2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks	Nov 22, 2022	AllCross-Modal Retrieval	CodeCode Available	2
Revealing Single Frame Bias for Video-and-Language Learning	Jun 7, 2022	Action RecognitionFine-grained Action Recognition	CodeCode Available	2
X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval	Mar 28, 2022	RetrievalText to Video Retrieval	CodeCode Available	1
An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling	Sep 4, 2022	Fill MaskOptical Flow Estimation	CodeCode Available	1
Bridging Video-text Retrieval with Multiple Choice Questions	Jan 13, 2022	Action RecognitionLinear evaluation	CodeCode Available	1
Building an Open-Vocabulary Video CLIP Model with Better Architectures, Optimization and Data	Oct 8, 2023	Action RecognitionContinual Learning	CodeCode Available	1
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval	Apr 18, 2021	RetrievalText Retrieval	CodeCode Available	1
Clover: Towards A Unified Video-Language Alignment and Fusion Model	Jul 16, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
Condensed Movies: Story Based Retrieval with Contextual Embeddings	May 8, 2020	RetrievalText to Video Retrieval	CodeCode Available	1
DeCEMBERT: Learning from Noisy Instructional Videos via Dense Captions and Entropy Minimization	Jun 1, 2021	Question AnsweringRetrieval	CodeCode Available	1
Dual Learning with Dynamic Knowledge Distillation for Partially Relevant Video Retrieval	Jan 1, 2023	Knowledge DistillationLanguage Modelling	CodeCode Available	1
ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound	Apr 6, 2022	RetrievalText to Video Retrieval	CodeCode Available	1
End-to-End Learning of Visual Representations from Uncurated Instructional Videos	Dec 13, 2019	Action LocalizationAction Recognition	CodeCode Available	1
Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval	Apr 1, 2021	RetrievalText Retrieval	CodeCode Available	1
GEB+: A Benchmark for Generic Event Boundary Captioning, Grounding and Retrieval	Apr 1, 2022	Boundary CaptioningBoundary Grounding	CodeCode Available	1
Holistic Features are almost Sufficient for Text-to-Video Retrieval	Jan 1, 2024	Retrievaltext similarity	CodeCode Available	1
HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips	Jun 7, 2019	Action LocalizationLong Video Retrieval (Background Removed)	CodeCode Available	1
LAVENDER: Unifying Video-Language Understanding as Masked Language Modeling	Jun 14, 2022	DecoderLanguage Modeling	CodeCode Available	1
Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling	Feb 11, 2021	Question AnsweringRetrieval	CodeCode Available	1
Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval	Dec 3, 2021	Ad-hoc video searchfeature selection	CodeCode Available	1
MDMMT: Multidomain Multimodal Transformer for Video Retrieval	Mar 19, 2021	RetrievalText to Video Retrieval	CodeCode Available	1
MELTR: Meta Loss Transformer for Learning to Fine-tune Video Foundation Models	Mar 23, 2023	Auxiliary LearningMultimodal Sentiment Analysis	CodeCode Available	1
MILES: Visual BERT Pre-training with Injected Language Semantics for Video-text Retrieval	Apr 26, 2022	Action RecognitionRetrieval	CodeCode Available	1
Multimodal Clustering Networks for Self-supervised Learning from Unlabeled Videos	Apr 26, 2021	Action LocalizationClustering	CodeCode Available	1
Partially Relevant Video Retrieval	Aug 26, 2022	Moment RetrievalMultiple Instance Learning	CodeCode Available	1
Prototype-based Aleatoric Uncertainty Quantification for Cross-modal Retrieval	Sep 29, 2023	Cross-Modal RetrievalImage-text matching	CodeCode Available	1
Reading-strategy Inspired Visual Representation Learning for Text-to-Video Retrieval	Jan 23, 2022	Representation LearningRetrieval	CodeCode Available	1
Revisiting the "Video" in Video-Language Understanding	Jun 3, 2022	BenchmarkingQuestion Answering	CodeCode Available	1
Revitalize Region Feature for Democratizing Video-Language Pre-training of Retrieval	Mar 15, 2022	Question AnsweringRetrieval	CodeCode Available	1
StableFusion: Continual Video Retrieval via Frame Adaptation	Mar 13, 2025	Continual LearningMixture-of-Experts	CodeCode Available	1
The End-of-End-to-End: A Video Understanding Pentathlon Challenge (2020)	Aug 3, 2020	Natural Language QueriesRetrieval	CodeCode Available	1
Towards Efficient and Effective Text-to-Video Retrieval with Coarse-to-Fine Visual Representation Learning	Jan 1, 2024	Representation LearningRetrieval	CodeCode Available	1
Unified Coarse-to-Fine Alignment for Video-Text Retrieval	Sep 18, 2023	RetrievalText Retrieval	CodeCode Available	1
VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation	Jun 8, 2021	Multi-Task LearningQuestion Answering	CodeCode Available	1
VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text	Apr 22, 2021	Action ClassificationAction Recognition	CodeCode Available	1
VideoCon: Robust Video-Language Alignment via Contrast Captions	Nov 15, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
VindLU: A Recipe for Effective Video-and-Language Pretraining	Dec 9, 2022	Question AnsweringRetrieval	CodeCode Available	1
VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling	Nov 24, 2021	Question AnsweringRetrieval	CodeCode Available	1
Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions	Nov 19, 2021	RetrievalSuper-Resolution	CodeCode Available	1
Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval	Mar 24, 2025	RetrievalText to Video Retrieval	—Unverified	0
Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature Alignment	Jul 24, 2023	RetrievalText to Video Retrieval	—Unverified	0
Fighting FIRe with FIRE: Assessing the Validity of Text-to-Video Retrieval Benchmarks	Oct 10, 2022	RetrievalText to Video Retrieval	—Unverified	0
CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval	Dec 31, 2024	RetrievalText Retrieval	—Unverified	0
Retrieving and Highlighting Action with Spatiotemporal Reference	May 19, 2020	Action RecognitionCross-Modal Retrieval	—Unverified	0
VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners	Dec 9, 2022	Question AnsweringRetrieval	—Unverified	0
Learning text-to-video retrieval from image captioning	Apr 26, 2024	Image CaptioningImage Retrieval	—Unverified	0
Learning Trajectory-Word Alignments for Video-Language Tasks	Jan 5, 2023	Question AnsweringRetrieval	—Unverified	0
Sakuga-42M Dataset: Scaling Up Cartoon Research	May 13, 2024	MambaText to Video Retrieval	—Unverified	0
Leveraging Auxiliary Information in Text-to-Video Retrieval: A Review	May 29, 2025	RetrievalText to Video Retrieval	—Unverified	0
Leveraging Generative Language Models for Weakly Supervised Sentence Component Analysis in Video-Language Joint Learning	Dec 10, 2023	Language ModelingLanguage Modelling	—Unverified	0

Show:10 25 50

← PrevPage 1 of 2Next →

All datasets Kinetics-GEB+MSR-VTT MSVD-Indonesian

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	FROZEN-revised	mAP	23.39	—	Unverified
2	FROZEN-revised (two-stream)	text-to-video R@1	12.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CLIP4Clip	text-to-video R@1	44.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	X-CLIP (Cross-Lingual)	R@1	32.3	—	Unverified