Video Retrieval

The objective of video retrieval is as follows: given a text query and a pool of candidate videos, select the video which corresponds to the text query. Typically, the videos are returned as a ranked list of candidates and scored via document retrieval metrics.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 486 papers

Title	Date	Tasks	Status
HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training	Dec 30, 2022	cross-modal alignmentTGIF-Action	—Unverified
You were saying? - Spoken Language in the V3C Dataset	Dec 15, 2022	RetrievalVideo Retrieval	CodeCode Available
Contextual Explainable Video Representation: Human Perception-based Understanding	Dec 12, 2022	Action DetectionAction Recognition	CodeCode Available
VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners	Dec 9, 2022	Question AnsweringRetrieval	—Unverified
Masked Contrastive Pre-Training for Efficient Video-Text Retrieval	Dec 2, 2022	Image-text RetrievalRetrieval	—Unverified
Renmin University of China at TRECVID 2022: Improving Video Search by Feature Fusion and Negation Understanding	Nov 28, 2022	Ad-hoc video searchNegation	—Unverified
Are All Combinations Equal? Combining Textual and Visual Features with Multiple Space Learning for Text-Based Video Retrieval	Nov 21, 2022	AllRetrieval	CodeCode Available
SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-training	Nov 21, 2022	cross-modal alignmentGPU	—Unverified
A Unified Model for Video Understanding and Knowledge Embedding with Heterogeneous Knowledge Graph Dataset	Nov 19, 2022	Common Sense ReasoningGraph Embedding	—Unverified
CLOP: Video-and-Language Pre-Training with Knowledge Regularizations	Nov 7, 2022	Contrastive LearningRetrieval	—Unverified
LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal Modeling	Oct 21, 2022	Language ModelingLanguage Modelling	—Unverified
Efficient Cross-Modal Video Retrieval with Meta-Optimized Frames	Oct 16, 2022	Bilevel OptimizationRetrieval	CodeCode Available
Semantic Video Moments Retrieval at Scale: A New Task and a Baseline	Oct 15, 2022	RetrievalVideo Retrieval	—Unverified
RaP: Redundancy-aware Video-language Pre-training for Text-Video Retrieval	Oct 13, 2022	Contrastive LearningRetrieval	CodeCode Available
Learning to Locate Visual Answer in Video Corpus Using Question	Oct 11, 2022	Contrastive LearningLanguage Modelling	CodeCode Available
Contrastive Video-Language Learning with Fine-grained Frame Sampling	Oct 10, 2022	Question AnsweringRepresentation Learning	—Unverified
Fighting FIRe with FIRE: Assessing the Validity of Text-to-Video Retrieval Benchmarks	Oct 10, 2022	RetrievalText to Video Retrieval	—Unverified
ConTra: (Con)text (Tra)nsformer for Cross-Modal Video Retrieval	Oct 9, 2022	RetrievalSentence	CodeCode Available
Event Extraction in Video Transcripts	Oct 1, 2022	ArticlesEvent Extraction	—Unverified
Text-Adaptive Multiple Visual Prototype Matching for Video-Text Retrieval	Sep 27, 2022	Cross-Modal RetrievalRetrieval	—Unverified
Multi-Granularity Graph Pooling for Video-based Person Re-Identification	Sep 23, 2022	Node ClusteringPerson Re-Identification	—Unverified
Pose-Aided Video-based Person Re-Identification via Recurrent Graph Convolutional Network	Sep 23, 2022	Person Re-IdentificationRetrieval	—Unverified
Semi-automatic Data Annotation System for Multi-Target Multi-Camera Vehicle Tracking	Sep 20, 2022	RetrievalVideo Retrieval	—Unverified
Tree-based Text-Vision BERT for Video Search in Baidu Video Advertising	Sep 19, 2022	Image RetrievalRetrieval	—Unverified
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks	Sep 15, 2022	Action ClassificationAction Recognition	—Unverified
Temporal Contrastive Learning with Curriculum	Sep 2, 2022	Action RecognitionContrastive Learning	—Unverified
MuMUR : Multilingual Multimodal Universal Retrieval	Aug 24, 2022	Image RetrievalMachine Translation	—Unverified
STAR-GNN: Spatial-Temporal Video Representation for Content-based Retrieval	Aug 15, 2022	Graph Neural NetworkRepresentation Learning	—Unverified
Motion Sensitive Contrastive Learning for Self-supervised Video Representation	Aug 12, 2022	Contrastive LearningRepresentation Learning	—Unverified
QSAM-Net: Rain streak removal by quaternion neural network with self-attention module	Aug 8, 2022	Benchmarkingobject-detection	—Unverified
GOCA: Guided Online Cluster Assignment for Self-Supervised Video Representation Learning	Jul 20, 2022	Action RecognitionClustering	CodeCode Available
LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval	Jul 11, 2022	Representation LearningRetrieval	—Unverified
Robustness Analysis of Video-Language Models Against Visual and Language Perturbations	Jul 5, 2022	Language ModelingLanguage Modelling	CodeCode Available
Exploiting Semantic Role Contextualized Video Features for Multi-Instance Text-Video Retrieval EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022	Jun 29, 2022	Multi-Instance RetrievalRetrieval	CodeCode Available
RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video Retrieval	Jun 26, 2022	Mixture-of-ExpertsRetrieval	CodeCode Available
Semantic Role Aware Correlation Transformer for Text to Video Retrieval	Jun 26, 2022	RetrievalText to Video Retrieval	CodeCode Available
VRAG: Region Attention Graphs for Content-Based Video Retrieval	May 18, 2022	RetrievalVideo Retrieval	—Unverified
Learning to Retrieve Videos by Asking Questions	May 11, 2022	AI AgentRetrieval	CodeCode Available
Learn to Understand Negation in Video Retrieval	Apr 30, 2022	Natural Language QueriesNegation	CodeCode Available
Relevance-based Margin for Contrastively-trained Video Retrieval Models	Apr 27, 2022	Multi-Instance RetrievalNatural Language Queries	CodeCode Available
A Survey of Video-based Action Quality Assessment	Apr 20, 2022	Action Quality AssessmentAction Recognition	—Unverified
Modality-Balanced Embedding for Video Retrieval	Apr 18, 2022	RetrievalText Matching	—Unverified
COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval	Apr 15, 2022	Contrastive LearningCross-Modal Retrieval	—Unverified
Exploring the Temporal Cues to Enhance Video Retrieval on Standardized CDVA	Apr 11, 2022	RetrievalVideo Retrieval	CodeCode Available
Probabilistic Representations for Video Contrastive Learning	Apr 8, 2022	Action RecognitionContrastive Learning	—Unverified
Tencent Text-Video Retrieval: Hierarchical Cross-Modal Interactions with Multi-Level Representations	Apr 7, 2022	Contrastive LearningDenoising	—Unverified
Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language	Apr 1, 2022	DiversityImage Captioning	CodeCode Available
Learning Audio-Video Modalities from Image Captions	Apr 1, 2022	Image CaptioningRetrieval	—Unverified
CREATE: A Benchmark for Chinese Short Video Retrieval and Title Generation	Mar 31, 2022	RetrievalVideo Captioning	—Unverified
Controllable Augmentations for Video Representation Learning	Mar 30, 2022	Action RecognitionContrastive Learning	—Unverified

Show:10 25 50

← PrevPage 7 of 10Next →

All datasets MSR-VTT-1kA DiDeMo MSR-VTT LSMDC ActivityNet MSVD YouCook2 FIVR-200K VATEX QuerYD SSv2-label retrieval SSv2-template retrieval

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	OmniVec	text-to-video R@10	89.4	—	Unverified
2	CLIP4Clip	text-to-video R@10	81.6	—	Unverified
3	OmniVec (pretrained)	text-to-video R@10	78.6	—	Unverified
4	HunYuan_tvr (huge)	text-to-video R@1	62.9	—	Unverified
5	CLIP-ViP	text-to-video R@1	57.7	—	Unverified
6	PIDRo	text-to-video R@1	55.9	—	Unverified
7	DMAE (ViT-B/16)	text-to-video R@1	55.5	—	Unverified
8	HunYuan_tvr	text-to-video R@1	55	—	Unverified
9	MuLTI	text-to-video R@1	54.7	—	Unverified
10	EERCF	text-to-video R@1	54.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Aurora (ours, r=64)	text-to-video R@5	77.4	—	Unverified
2	InternVideo2-6B	text-to-video R@1	74.2	—	Unverified
3	vid-TLDR (UMT-L)	text-to-video R@1	72.3	—	Unverified
4	VAST	text-to-video R@1	72	—	Unverified
5	COSA	text-to-video R@1	70.5	—	Unverified
6	UMT-L (ViT-L/16)	text-to-video R@1	70.4	—	Unverified
7	GRAM	text-to-video R@1	67.3	—	Unverified
8	VALOR	text-to-video R@1	61.5	—	Unverified
9	TESTA (ViT-B/16)	text-to-video R@1	61.2	—	Unverified
10	VindLU	text-to-video R@1	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GRAM	text-to-video R@1	64	—	Unverified
2	VAST	text-to-video R@1	63.9	—	Unverified
3	InternVideo2-6B	text-to-video R@1	62.8	—	Unverified
4	VALOR	text-to-video R@1	59.9	—	Unverified
5	UMT-L (ViT-L/16)	text-to-video R@1	58.8	—	Unverified
6	vid-TLDR (UMT-L)	text-to-video R@1	58.1	—	Unverified
7	COSA	text-to-video R@1	57.9	—	Unverified
8	InternVideo2-6B	text-to-video R@1	55.9	—	Unverified
9	InternVideo	text-to-video R@1	55.2	—	Unverified
10	VLAB	text-to-video R@1	55.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EMCL-Net (Ours)++ LSMDC Rohrbach et al. (2015)	text-to-video R@10	53.7	—	Unverified
2	InternVideo2-6B	text-to-video R@1	46.4	—	Unverified
3	vid-TLDR (UMT-L)	text-to-video R@1	43.1	—	Unverified
4	UMT-L (ViT-L/16)	text-to-video R@1	43	—	Unverified
5	HunYuan_tvr (huge)	text-to-video R@1	40.4	—	Unverified
6	COSA	text-to-video R@1	39.4	—	Unverified
7	mPLUG-2	text-to-video R@1	34.4	—	Unverified
8	VALOR	text-to-video R@1	34.2	—	Unverified
9	InternVideo	text-to-video R@1	34	—	Unverified
10	InternVideo2-6B	text-to-video R@1	33.8	—	Unverified