Text to Video Retrieval

She's gone I can't find her anywhere I'm looking everywhere for her Everywhere is dark

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 75 papers

Title	Date	Tasks	Status	Hype
VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling	Nov 24, 2021	Question AnsweringRetrieval	CodeCode Available	1
Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions	Nov 19, 2021	RetrievalSuper-Resolution	CodeCode Available	1
VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation	Jun 8, 2021	Multi-Task LearningQuestion Answering	CodeCode Available	1
DeCEMBERT: Learning from Noisy Instructional Videos via Dense Captions and Entropy Minimization	Jun 1, 2021	Question AnsweringRetrieval	CodeCode Available	1
Multimodal Clustering Networks for Self-supervised Learning from Unlabeled Videos	Apr 26, 2021	Action LocalizationClustering	CodeCode Available	1
VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text	Apr 22, 2021	Action ClassificationAction Recognition	CodeCode Available	1
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval	Apr 18, 2021	RetrievalText Retrieval	CodeCode Available	1
Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval	Apr 1, 2021	RetrievalText Retrieval	CodeCode Available	1
MDMMT: Multidomain Multimodal Transformer for Video Retrieval	Mar 19, 2021	RetrievalText to Video Retrieval	CodeCode Available	1
Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling	Feb 11, 2021	Question AnsweringRetrieval	CodeCode Available	1
The End-of-End-to-End: A Video Understanding Pentathlon Challenge (2020)	Aug 3, 2020	Natural Language QueriesRetrieval	CodeCode Available	1
Condensed Movies: Story Based Retrieval with Contextual Embeddings	May 8, 2020	RetrievalText to Video Retrieval	CodeCode Available	1
End-to-End Learning of Visual Representations from Uncurated Instructional Videos	Dec 13, 2019	Action LocalizationAction Recognition	CodeCode Available	1
HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips	Jun 7, 2019	Action LocalizationLong Video Retrieval (Background Removed)	CodeCode Available	1
Q2E: Query-to-Event Decomposition for Zero-Shot Multilingual Text-to-Video Retrieval	Jun 11, 2025	RetrievalText to Video Retrieval	—Unverified	0
Leveraging Auxiliary Information in Text-to-Video Retrieval: A Review	May 29, 2025	RetrievalText to Video Retrieval	—Unverified	0
Towards Efficient Partially Relevant Video Retrieval with Active Moment Discovering	Apr 15, 2025	Partially Relevant Video RetrievalRetrieval	CodeCode Available	0
TC-MGC: Text-Conditioned Multi-Grained Contrastive Learning for Text-Video Retrieval	Apr 7, 2025	Contrastive LearningRetrieval	CodeCode Available	0
Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval	Mar 24, 2025	RetrievalText to Video Retrieval	—Unverified	0
CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval	Dec 31, 2024	RetrievalText Retrieval	—Unverified	0
ContextIQ: A Multimodal Expert-Based Video Retrieval System for Contextual Advertising	Oct 29, 2024	RetrievalText to Video Retrieval	CodeCode Available	0
EA-VTR: Event-Aware Video-Text Retrieval	Jul 10, 2024	Action RecognitionContrastive Learning	—Unverified	0
Multi-Granularity and Multi-modal Feature Interaction Approach for Text Video Retrieval	Jun 21, 2024	RetrievalSentence	—Unverified	0
Sakuga-42M Dataset: Scaling Up Cartoon Research	May 13, 2024	MambaText to Video Retrieval	—Unverified	0
Learning text-to-video retrieval from image captioning	Apr 26, 2024	Image CaptioningImage Retrieval	—Unverified	0

Show:10 25 50

← PrevPage 2 of 3Next →

All datasets Kinetics-GEB+MSR-VTT MSVD-Indonesian

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	FROZEN-revised	mAP	23.39	—	Unverified
2	FROZEN-revised (two-stream)	text-to-video R@1	12.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CLIP4Clip	text-to-video R@1	44.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	X-CLIP (Cross-Lingual)	R@1	32.3	—	Unverified