Video Retrieval

The objective of video retrieval is as follows: given a text query and a pool of candidate videos, select the video which corresponds to the text query. Typically, the videos are returned as a ranked list of candidates and scored via document retrieval metrics.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 486 papers

Title	Date	Tasks	Status	Hype
SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-training	Nov 21, 2022	cross-modal alignmentGPU	—Unverified	0
Contrastive Masked Autoencoders for Self-Supervised Video Hashing	Nov 21, 2022	DecoderRetrieval	CodeCode Available	1
A Unified Model for Video Understanding and Knowledge Embedding with Heterogeneous Knowledge Graph Dataset	Nov 19, 2022	Common Sense ReasoningGraph Embedding	—Unverified	0
Cross-Modal Adapter for Text-Video Retrieval	Nov 17, 2022	parameter-efficient fine-tuningRetrieval	CodeCode Available	1
3D-CSL: self-supervised 3D context similarity learning for Near-Duplicate Video Retrieval	Nov 10, 2022	RetrievalSelf-Supervised Learning	CodeCode Available	1
CLOP: Video-and-Language Pre-Training with Knowledge Regularizations	Nov 7, 2022	Contrastive LearningRetrieval	—Unverified	0
LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal Modeling	Oct 21, 2022	Language ModelingLanguage Modelling	—Unverified	0
Efficient Cross-Modal Video Retrieval with Meta-Optimized Frames	Oct 16, 2022	Bilevel OptimizationRetrieval	CodeCode Available	0
Semantic Video Moments Retrieval at Scale: A New Task and a Baseline	Oct 15, 2022	RetrievalVideo Retrieval	—Unverified	0
RaP: Redundancy-aware Video-language Pre-training for Text-Video Retrieval	Oct 13, 2022	Contrastive LearningRetrieval	CodeCode Available	0
Long-Form Video-Language Pre-Training with Multimodal Temporal Contrastive Learning	Oct 12, 2022	Contrastive LearningForm	CodeCode Available	2
Learning to Locate Visual Answer in Video Corpus Using Question	Oct 11, 2022	Contrastive LearningLanguage Modelling	CodeCode Available	0
Contrastive Video-Language Learning with Fine-grained Frame Sampling	Oct 10, 2022	Question AnsweringRepresentation Learning	—Unverified	0
Fighting FIRe with FIRE: Assessing the Validity of Text-to-Video Retrieval Benchmarks	Oct 10, 2022	RetrievalText to Video Retrieval	—Unverified	0
ConTra: (Con)text (Tra)nsformer for Cross-Modal Video Retrieval	Oct 9, 2022	RetrievalSentence	CodeCode Available	0
C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video Retrieval	Oct 7, 2022	Knowledge DistillationRetrieval	CodeCode Available	1
Event Extraction in Video Transcripts	Oct 1, 2022	ArticlesEvent Extraction	—Unverified	0
TVLT: Textless Vision-Language Transformer	Sep 28, 2022	Automatic Speech Recognition (ASR)Image Retrieval	CodeCode Available	1
Text-Adaptive Multiple Visual Prototype Matching for Video-Text Retrieval	Sep 27, 2022	Cross-Modal RetrievalRetrieval	—Unverified	0
Multi-Granularity Graph Pooling for Video-based Person Re-Identification	Sep 23, 2022	Node ClusteringPerson Re-Identification	—Unverified	0
Pose-Aided Video-based Person Re-Identification via Recurrent Graph Convolutional Network	Sep 23, 2022	Person Re-IdentificationRetrieval	—Unverified	0
Marine Video Kit: A New Marine Video Dataset for Content-based Analysis and Retrieval	Sep 23, 2022	RetrievalVideo Retrieval	CodeCode Available	1
Semi-automatic Data Annotation System for Multi-Target Multi-Camera Vehicle Tracking	Sep 20, 2022	RetrievalVideo Retrieval	—Unverified	0
Tree-based Text-Vision BERT for Video Search in Baidu Video Advertising	Sep 19, 2022	Image RetrievalRetrieval	—Unverified	0
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks	Sep 15, 2022	Action ClassificationAction Recognition	—Unverified	0
CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment	Sep 14, 2022	RetrievalText Retrieval	CodeCode Available	2
An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling	Sep 4, 2022	Fill MaskOptical Flow Estimation	CodeCode Available	1
Temporal Contrastive Learning with Curriculum	Sep 2, 2022	Action RecognitionContrastive Learning	—Unverified	0
Partially Relevant Video Retrieval	Aug 26, 2022	Moment RetrievalMultiple Instance Learning	CodeCode Available	1
MuMUR : Multilingual Multimodal Universal Retrieval	Aug 24, 2022	Image RetrievalMachine Translation	—Unverified	0
STAR-GNN: Spatial-Temporal Video Representation for Content-based Retrieval	Aug 15, 2022	Graph Neural NetworkRepresentation Learning	—Unverified	0
Motion Sensitive Contrastive Learning for Self-supervised Video Representation	Aug 12, 2022	Contrastive LearningRepresentation Learning	—Unverified	0
QSAM-Net: Rain streak removal by quaternion neural network with self-attention module	Aug 8, 2022	Benchmarkingobject-detection	—Unverified	0
A Feature-space Multimodal Data Augmentation Technique for Text-video Retrieval	Aug 3, 2022	Data AugmentationRetrieval	CodeCode Available	1
LocVTP: Video-Text Pre-training for Temporal Localization	Jul 21, 2022	RetrievalTemporal Localization	CodeCode Available	1
GOCA: Guided Online Cluster Assignment for Self-Supervised Video Representation Learning	Jul 20, 2022	Action RecognitionClustering	CodeCode Available	0
TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval	Jul 16, 2022	RetrievalVideo Retrieval	CodeCode Available	1
Clover: Towards A Unified Video-Language Alignment and Fusion Model	Jul 16, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text Retrieval	Jul 15, 2022	Contrastive LearningRetrieval	CodeCode Available	1
LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval	Jul 11, 2022	Representation LearningRetrieval	—Unverified	0
Robustness Analysis of Video-Language Models Against Visual and Language Perturbations	Jul 5, 2022	Language ModelingLanguage Modelling	CodeCode Available	0
Exploiting Semantic Role Contextualized Video Features for Multi-Instance Text-Video Retrieval EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022	Jun 29, 2022	Multi-Instance RetrievalRetrieval	CodeCode Available	0
Semantic Role Aware Correlation Transformer for Text to Video Retrieval	Jun 26, 2022	RetrievalText to Video Retrieval	CodeCode Available	0
RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video Retrieval	Jun 26, 2022	Mixture-of-ExpertsRetrieval	CodeCode Available	0
SLIC: Self-Supervised Learning with Iterative Clustering for Human Action Videos	Jun 25, 2022	Action ClassificationClustering	CodeCode Available	1
LAVENDER: Unifying Video-Language Understanding as Masked Language Modeling	Jun 14, 2022	DecoderLanguage Modeling	CodeCode Available	1
Revealing Single Frame Bias for Video-and-Language Learning	Jun 7, 2022	Action RecognitionFine-grained Action Recognition	CodeCode Available	2
Revisiting the "Video" in Video-Language Understanding	Jun 3, 2022	BenchmarkingQuestion Answering	CodeCode Available	1
Cross-Architecture Self-supervised Video Representation Learning	May 26, 2022	Action RecognitionContrastive Learning	CodeCode Available	1
VRAG: Region Attention Graphs for Content-Based Video Retrieval	May 18, 2022	RetrievalVideo Retrieval	—Unverified	0

Show:10 25 50

← PrevPage 5 of 10Next →

All datasets MSR-VTT-1kA DiDeMo MSR-VTT LSMDC ActivityNet MSVD YouCook2 FIVR-200K VATEX QuerYD SSv2-label retrieval SSv2-template retrieval

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	OmniVec	text-to-video R@10	89.4	—	Unverified
2	CLIP4Clip	text-to-video R@10	81.6	—	Unverified
3	OmniVec (pretrained)	text-to-video R@10	78.6	—	Unverified
4	HunYuan_tvr (huge)	text-to-video R@1	62.9	—	Unverified
5	CLIP-ViP	text-to-video R@1	57.7	—	Unverified
6	PIDRo	text-to-video R@1	55.9	—	Unverified
7	DMAE (ViT-B/16)	text-to-video R@1	55.5	—	Unverified
8	HunYuan_tvr	text-to-video R@1	55	—	Unverified
9	MuLTI	text-to-video R@1	54.7	—	Unverified
10	EERCF	text-to-video R@1	54.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Aurora (ours, r=64)	text-to-video R@5	77.4	—	Unverified
2	InternVideo2-6B	text-to-video R@1	74.2	—	Unverified
3	vid-TLDR (UMT-L)	text-to-video R@1	72.3	—	Unverified
4	VAST	text-to-video R@1	72	—	Unverified
5	COSA	text-to-video R@1	70.5	—	Unverified
6	UMT-L (ViT-L/16)	text-to-video R@1	70.4	—	Unverified
7	GRAM	text-to-video R@1	67.3	—	Unverified
8	VALOR	text-to-video R@1	61.5	—	Unverified
9	TESTA (ViT-B/16)	text-to-video R@1	61.2	—	Unverified
10	VindLU	text-to-video R@1	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GRAM	text-to-video R@1	64	—	Unverified
2	VAST	text-to-video R@1	63.9	—	Unverified
3	InternVideo2-6B	text-to-video R@1	62.8	—	Unverified
4	VALOR	text-to-video R@1	59.9	—	Unverified
5	UMT-L (ViT-L/16)	text-to-video R@1	58.8	—	Unverified
6	vid-TLDR (UMT-L)	text-to-video R@1	58.1	—	Unverified
7	COSA	text-to-video R@1	57.9	—	Unverified
8	InternVideo2-6B	text-to-video R@1	55.9	—	Unverified
9	InternVideo	text-to-video R@1	55.2	—	Unverified
10	VLAB	text-to-video R@1	55.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EMCL-Net (Ours)++ LSMDC Rohrbach et al. (2015)	text-to-video R@10	53.7	—	Unverified
2	InternVideo2-6B	text-to-video R@1	46.4	—	Unverified
3	vid-TLDR (UMT-L)	text-to-video R@1	43.1	—	Unverified
4	UMT-L (ViT-L/16)	text-to-video R@1	43	—	Unverified
5	HunYuan_tvr (huge)	text-to-video R@1	40.4	—	Unverified
6	COSA	text-to-video R@1	39.4	—	Unverified
7	mPLUG-2	text-to-video R@1	34.4	—	Unverified
8	VALOR	text-to-video R@1	34.2	—	Unverified
9	InternVideo	text-to-video R@1	34	—	Unverified
10	InternVideo2-6B	text-to-video R@1	33.8	—	Unverified