Video Retrieval

The objective of video retrieval is as follows: given a text query and a pool of candidate videos, select the video which corresponds to the text query. Typically, the videos are returned as a ranked list of candidates and scored via document retrieval metrics.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 486 papers

Title	Date	Tasks	Status	Hype
Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval	Aug 15, 2023	RetrievalVideo Captioning	CodeCode Available	1
Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures	Jul 27, 2023	Automatic Speech RecognitionContrastive Learning	CodeCode Available	1
Towards Video Anomaly Retrieval from Video Anomaly Detection: New Benchmarks and Model	Jul 24, 2023	Anomaly DetectionRetrieval	CodeCode Available	1
An overview on the evaluated video retrieval tasks at TRECVID 2022	Jun 22, 2023	Ad-hoc video searchRetrieval	CodeCode Available	1
COSA: Concatenated Sample Pretrained Vision-Language Foundation Model	Jun 15, 2023	Formmodel	CodeCode Available	1
Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set Alignment	May 20, 2023	RetrievalVideo Retrieval	CodeCode Available	1
A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension	May 5, 2023	Reading ComprehensionRetrieval	CodeCode Available	1
Robust Cross-Modal Knowledge Distillation for Unconstrained Videos	Apr 16, 2023	Action RecognitionAudio Tagging	CodeCode Available	1
Self-Supervised Video Similarity Learning	Apr 6, 2023	ISVRRetrieval	CodeCode Available	1
Hierarchical Video-Moment Retrieval and Step-Captioning	Mar 29, 2023	Information RetrievalMoment Retrieval	CodeCode Available	1
Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning	Mar 25, 2023	Contrastive LearningQuestion Answering	CodeCode Available	1
MELTR: Meta Loss Transformer for Learning to Fine-tune Video Foundation Models	Mar 23, 2023	Auxiliary LearningMultimodal Sentiment Analysis	CodeCode Available	1
DiffusionRet: Generative Text-Video Retrieval with Diffusion Model	Mar 17, 2023	RetrievalVideo Retrieval	CodeCode Available	1
VVS: Video-to-Video Retrieval with Irrelevant Frame Suppression	Mar 15, 2023	RetrievalVideo Retrieval	CodeCode Available	1
Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge Transferring	Jan 26, 2023	Representation LearningRetrieval	CodeCode Available	1
UATVR: Uncertainty-Adaptive Text-Video Retrieval	Jan 16, 2023	RetrievalSemantic correspondence	CodeCode Available	1
Dual Learning with Dynamic Knowledge Distillation for Partially Relevant Video Retrieval	Jan 1, 2023	Knowledge DistillationLanguage Modelling	CodeCode Available	1
Progressive Spatio-Temporal Prototype Matching for Text-Video Retrieval	Jan 1, 2023	DiversityObject	CodeCode Available	1
TempCLR: Temporal Alignment Representation with Contrastive Learning	Dec 28, 2022	Action RecognitionContrastive Learning	CodeCode Available	1
VindLU: A Recipe for Effective Video-and-Language Pretraining	Dec 9, 2022	Question AnsweringRetrieval	CodeCode Available	1
Normalized Contrastive Learning for Text-Video Retrieval	Nov 30, 2022	Contrastive LearningCross-Modal Retrieval	CodeCode Available	1
VoP: Text-Video Co-operative Prompt Tuning for Cross-Modal Retrieval	Nov 23, 2022	Cross-Modal RetrievalRetrieval	CodeCode Available	1
TransVCL: Attention-enhanced Video Copy Localization Network with Flexible Supervision	Nov 23, 2022	RetrievalVideo Retrieval	CodeCode Available	1
Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations	Nov 21, 2022	Contrastive LearningRepresentation Learning	CodeCode Available	1
Contrastive Masked Autoencoders for Self-Supervised Video Hashing	Nov 21, 2022	DecoderRetrieval	CodeCode Available	1
Cross-Modal Adapter for Text-Video Retrieval	Nov 17, 2022	parameter-efficient fine-tuningRetrieval	CodeCode Available	1
3D-CSL: self-supervised 3D context similarity learning for Near-Duplicate Video Retrieval	Nov 10, 2022	RetrievalSelf-Supervised Learning	CodeCode Available	1
C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video Retrieval	Oct 7, 2022	Knowledge DistillationRetrieval	CodeCode Available	1
TVLT: Textless Vision-Language Transformer	Sep 28, 2022	Automatic Speech Recognition (ASR)Image Retrieval	CodeCode Available	1
Marine Video Kit: A New Marine Video Dataset for Content-based Analysis and Retrieval	Sep 23, 2022	RetrievalVideo Retrieval	CodeCode Available	1
An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling	Sep 4, 2022	Fill MaskOptical Flow Estimation	CodeCode Available	1
Partially Relevant Video Retrieval	Aug 26, 2022	Moment RetrievalMultiple Instance Learning	CodeCode Available	1
A Feature-space Multimodal Data Augmentation Technique for Text-video Retrieval	Aug 3, 2022	Data AugmentationRetrieval	CodeCode Available	1
LocVTP: Video-Text Pre-training for Temporal Localization	Jul 21, 2022	RetrievalTemporal Localization	CodeCode Available	1
Clover: Towards A Unified Video-Language Alignment and Fusion Model	Jul 16, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval	Jul 16, 2022	RetrievalVideo Retrieval	CodeCode Available	1
X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text Retrieval	Jul 15, 2022	Contrastive LearningRetrieval	CodeCode Available	1
SLIC: Self-Supervised Learning with Iterative Clustering for Human Action Videos	Jun 25, 2022	Action ClassificationClustering	CodeCode Available	1
LAVENDER: Unifying Video-Language Understanding as Masked Language Modeling	Jun 14, 2022	DecoderLanguage Modeling	CodeCode Available	1
Revisiting the "Video" in Video-Language Understanding	Jun 3, 2022	BenchmarkingQuestion Answering	CodeCode Available	1
Cross-Architecture Self-supervised Video Representation Learning	May 26, 2022	Action RecognitionContrastive Learning	CodeCode Available	1
A CLIP-Hitchhiker's Guide to Long Video Retrieval	May 17, 2022	RetrievalVideo Retrieval	CodeCode Available	1
CoCa: Contrastive Captioners are Image-Text Foundation Models	May 4, 2022	Action ClassificationDecoder	CodeCode Available	1
TransRank: Self-supervised Video Representation Learning via Ranking-based Transformation Recognition	May 4, 2022	Action RecognitionRepresentation Learning	CodeCode Available	1
CenterCLIP: Token Clustering for Efficient Text-Video Retrieval	May 2, 2022	ClusteringRetrieval	CodeCode Available	1
MILES: Visual BERT Pre-training with Injected Language Semantics for Video-text Retrieval	Apr 26, 2022	Action RecognitionRetrieval	CodeCode Available	1
ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound	Apr 6, 2022	RetrievalText to Video Retrieval	CodeCode Available	1
Temporal Alignment Networks for Long-term Video	Apr 6, 2022	Action RecognitionAction Segmentation	CodeCode Available	1
X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval	Mar 28, 2022	RetrievalText to Video Retrieval	CodeCode Available	1
Learning video retrieval models with relevance-aware online mining	Mar 16, 2022	Multi-Instance RetrievalRetrieval	CodeCode Available	1

Show:10 25 50

← PrevPage 2 of 10Next →

All datasets MSR-VTT-1kA DiDeMo MSR-VTT LSMDC ActivityNet MSVD YouCook2 FIVR-200K VATEX QuerYD SSv2-label retrieval SSv2-template retrieval

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	OmniVec	text-to-video R@10	89.4	—	Unverified
2	CLIP4Clip	text-to-video R@10	81.6	—	Unverified
3	OmniVec (pretrained)	text-to-video R@10	78.6	—	Unverified
4	HunYuan_tvr (huge)	text-to-video R@1	62.9	—	Unverified
5	CLIP-ViP	text-to-video R@1	57.7	—	Unverified
6	PIDRo	text-to-video R@1	55.9	—	Unverified
7	DMAE (ViT-B/16)	text-to-video R@1	55.5	—	Unverified
8	HunYuan_tvr	text-to-video R@1	55	—	Unverified
9	MuLTI	text-to-video R@1	54.7	—	Unverified
10	EERCF	text-to-video R@1	54.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Aurora (ours, r=64)	text-to-video R@5	77.4	—	Unverified
2	InternVideo2-6B	text-to-video R@1	74.2	—	Unverified
3	vid-TLDR (UMT-L)	text-to-video R@1	72.3	—	Unverified
4	VAST	text-to-video R@1	72	—	Unverified
5	COSA	text-to-video R@1	70.5	—	Unverified
6	UMT-L (ViT-L/16)	text-to-video R@1	70.4	—	Unverified
7	GRAM	text-to-video R@1	67.3	—	Unverified
8	VALOR	text-to-video R@1	61.5	—	Unverified
9	TESTA (ViT-B/16)	text-to-video R@1	61.2	—	Unverified
10	VindLU	text-to-video R@1	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GRAM	text-to-video R@1	64	—	Unverified
2	VAST	text-to-video R@1	63.9	—	Unverified
3	InternVideo2-6B	text-to-video R@1	62.8	—	Unverified
4	VALOR	text-to-video R@1	59.9	—	Unverified
5	UMT-L (ViT-L/16)	text-to-video R@1	58.8	—	Unverified
6	vid-TLDR (UMT-L)	text-to-video R@1	58.1	—	Unverified
7	COSA	text-to-video R@1	57.9	—	Unverified
8	InternVideo2-6B	text-to-video R@1	55.9	—	Unverified
9	InternVideo	text-to-video R@1	55.2	—	Unverified
10	VLAB	text-to-video R@1	55.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EMCL-Net (Ours)++ LSMDC Rohrbach et al. (2015)	text-to-video R@10	53.7	—	Unverified
2	InternVideo2-6B	text-to-video R@1	46.4	—	Unverified
3	vid-TLDR (UMT-L)	text-to-video R@1	43.1	—	Unverified
4	UMT-L (ViT-L/16)	text-to-video R@1	43	—	Unverified
5	HunYuan_tvr (huge)	text-to-video R@1	40.4	—	Unverified
6	COSA	text-to-video R@1	39.4	—	Unverified
7	mPLUG-2	text-to-video R@1	34.4	—	Unverified
8	VALOR	text-to-video R@1	34.2	—	Unverified
9	InternVideo	text-to-video R@1	34	—	Unverified
10	InternVideo2-6B	text-to-video R@1	33.8	—	Unverified