Video Retrieval

The objective of video retrieval is as follows: given a text query and a pool of candidate videos, select the video which corresponds to the text query. Typically, the videos are returned as a ranked list of candidates and scored via document retrieval metrics.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 486 papers

Title	Date	Tasks	Status
FitCLIP: Refining Large-Scale Pretrained Image-Text Models for Zero-Shot Video Understanding Tasks	Mar 24, 2022	Action RecognitionRetrieval	CodeCode Available
MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One More Step Towards Generalization	Mar 14, 2022	RetrievalText to Video Retrieval	—Unverified
Live Laparoscopic Video Retrieval with Compressed Uncertainty	Mar 8, 2022	RetrievalVideo Retrieval	—Unverified
VScript: Controllable Script Generation with Visual Presentation	Mar 1, 2022	Dialogue GenerationRetrieval	—Unverified
NEWSKVQA: Knowledge-Aware News Video Question Answering	Feb 8, 2022	Common Sense ReasoningManagement	—Unverified
End-to-end Generative Pretraining for Multimodal Video Captioning	Jan 20, 2022	Action ClassificationDecoder	—Unverified
Self-supervised Video Representation Learning with Cascade Positive Retrieval	Jan 20, 2022	Action RecognitionContrastive Learning	CodeCode Available
Watch Less and Uncover More: Could Navigation Tools Help Users Search and Explore Videos?	Jan 10, 2022	Information RetrievalRetrieval	—Unverified
Sign Language Video Retrieval with Free-Form Textual Queries	Jan 7, 2022	FormRetrieval	—Unverified
Sound and Visual Representation Learning with Multiple Pretraining Tasks	Jan 4, 2022	Incremental LearningRepresentation Learning	—Unverified
Vision Transformer Based Video Hashing Retrieval for Tracing the Source of Fake Videos	Dec 15, 2021	RetrievalTriplet	CodeCode Available
Self-supervised Spatiotemporal Representation Learning by Exploiting Video Continuity	Dec 11, 2021	Action LocalizationAction Recognition	—Unverified
Time-Equivariant Contrastive Video Representation Learning	Dec 7, 2021	Action RecognitionContrastive Learning	—Unverified
Cross-modal Manifold Cutmix for Self-supervised Video Representation Learning	Dec 7, 2021	Action RecognitionRepresentation Learning	—Unverified
Generalizable Multi-linear Attention Network	Dec 1, 2021	Multimodal Sentiment AnalysisRetrieval	—Unverified
Induce, Edit, Retrieve:Language Grounded Multimodal Schema for Instructional Video Retrieval	Nov 17, 2021	RetrievalVideo Retrieval	—Unverified
CREATE: A Benchmark for Chinese Short Video Retrieval and Title Generation	Nov 16, 2021	RetrievalVideo Captioning	—Unverified
SwAMP: Swapped Assignment of Multi-Modal Pairs for Cross-Modal Retrieval	Nov 10, 2021	Contrastive LearningCross-Modal Retrieval	—Unverified
CLIP2TV: Align, Match and Distill for Video-Text Retrieval	Nov 10, 2021	Representation LearningRetrieval	—Unverified
Masking Modalities for Cross-modal Video Retrieval	Nov 1, 2021	RetrievalVideo Retrieval	—Unverified
Domain Adaptation in Multi-View Embedding for Cross-Modal Video Retrieval	Oct 25, 2021	Domain AdaptationRetrieval	—Unverified
Coarse to Fine: Video Retrieval before Moment Localization	Oct 14, 2021	Moment RetrievalRetrieval	—Unverified
ViSeRet: A simple yet effective approach to moment retrieval via fine-grained video segmentation	Oct 11, 2021	Moment RetrievalRetrieval	—Unverified
Spatio-Temporal Video Representation Learning for AI Based Video Playback Style Prediction	Oct 3, 2021	Action RecognitionRepresentation Learning	—Unverified
Vi-MIX FOR SELF-SUPERVISED VIDEO REPRESENTATION	Sep 29, 2021	Action RecognitionRepresentation Learning	—Unverified
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding	Sep 28, 2021	Action LocalizationAction Segmentation	CodeCode Available
Self-Supervised Video Representation Learning by Video Incoherence Detection	Sep 26, 2021	Action RecognitionContrastive Learning	—Unverified
TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment	Aug 23, 2021	Action SegmentationContrastive Learning	—Unverified
Self-Supervised Video Representation Learning with Meta-Contrastive Network	Aug 19, 2021	Action RecognitionContrastive Learning	—Unverified
Boosting Video Captioning with Dynamic Loss Network	Jul 25, 2021	image-classificationImage Classification	—Unverified
Video 3D Sampling for Self-supervised Representation Learning	Jul 8, 2021	Action RecognitionRepresentation Learning	—Unverified
Use of Affective Visual Information for Summarization of Human-Centric Videos	Jul 8, 2021	Emotion RecognitionRetrieval	—Unverified
Inter-intra Variant Dual Representations forSelf-supervised Video Recognition	Jul 2, 2021	Contrastive LearningRepresentation Learning	CodeCode Available
Universal Adversarial Head: Practical Protection against Video Data Leakage	Jun 18, 2021	Deep HashingRetrieval	—Unverified
ASCNet: Self-supervised Video Representation Learning with Appearance-Speed Consistency	Jun 4, 2021	Action RecognitionRepresentation Learning	—Unverified
CNN Retrieval based Unsupervised Metric Learning for Near-Duplicated Video Retrieval	May 30, 2021	Metric LearningRe-Ranking	—Unverified
SSAN: Separable Self-Attention Network for Video Representation Learning	May 27, 2021	Action RecognitionRepresentation Learning	—Unverified
VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding	May 20, 2021	Action SegmentationLanguage Modeling	CodeCode Available
Action in Mind: A Neural Network Approach to Action Recognition and Segmentation	Apr 30, 2021	Action RecognitionAction Segmentation	—Unverified
T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval	Apr 20, 2021	RetrievalVideo Retrieval	CodeCode Available
Self-supervised Video Retrieval Transformer Network	Apr 16, 2021	RetrievalSelf-supervised Video Retrieval	—Unverified
Object Priors for Classifying and Localizing Unseen Actions	Apr 10, 2021	Action ClassificationAction Localization	CodeCode Available
Self-supervised Video Representation Learning by Context and Motion Decoupling	Apr 2, 2021	Action RecognitionCPU	CodeCode Available
CUPID: Adaptive Curation of Pre-training Data for Video-and-Language Representation Learning	Apr 1, 2021	Question AnsweringRepresentation Learning	—Unverified
Grounding Physical Concepts of Objects and Events Through Dynamic Visual Reasoning	Mar 30, 2021	counterfactualObject	—Unverified
Rudder: A Cross Lingual Video and Text Retrieval Dataset	Mar 9, 2021	Natural Language QueriesRetrieval	CodeCode Available
Clarification of Video Retrieval Query Results by the Automated Insertion of Supporting Shots	Feb 19, 2021	RetrievalVideo Editing	—Unverified
Win-Fail Action Recognition	Feb 15, 2021	Action RecognitionAction Understanding	CodeCode Available
Temporal Contrastive Graph Learning for Video Action Recognition and Retrieval	Jan 4, 2021	Action RecognitionContrastive Learning	—Unverified
Grounding Physical Object and Event Concepts Through Dynamic Visual Reasoning	Jan 1, 2021	counterfactualObject	—Unverified

Show:10 25 50

← PrevPage 8 of 10Next →

All datasets MSR-VTT-1kA DiDeMo MSR-VTT LSMDC ActivityNet MSVD YouCook2 FIVR-200K VATEX QuerYD SSv2-label retrieval SSv2-template retrieval

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	OmniVec	text-to-video R@10	89.4	—	Unverified
2	CLIP4Clip	text-to-video R@10	81.6	—	Unverified
3	OmniVec (pretrained)	text-to-video R@10	78.6	—	Unverified
4	HunYuan_tvr (huge)	text-to-video R@1	62.9	—	Unverified
5	CLIP-ViP	text-to-video R@1	57.7	—	Unverified
6	PIDRo	text-to-video R@1	55.9	—	Unverified
7	DMAE (ViT-B/16)	text-to-video R@1	55.5	—	Unverified
8	HunYuan_tvr	text-to-video R@1	55	—	Unverified
9	MuLTI	text-to-video R@1	54.7	—	Unverified
10	EERCF	text-to-video R@1	54.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Aurora (ours, r=64)	text-to-video R@5	77.4	—	Unverified
2	InternVideo2-6B	text-to-video R@1	74.2	—	Unverified
3	vid-TLDR (UMT-L)	text-to-video R@1	72.3	—	Unverified
4	VAST	text-to-video R@1	72	—	Unverified
5	COSA	text-to-video R@1	70.5	—	Unverified
6	UMT-L (ViT-L/16)	text-to-video R@1	70.4	—	Unverified
7	GRAM	text-to-video R@1	67.3	—	Unverified
8	VALOR	text-to-video R@1	61.5	—	Unverified
9	TESTA (ViT-B/16)	text-to-video R@1	61.2	—	Unverified
10	VindLU	text-to-video R@1	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GRAM	text-to-video R@1	64	—	Unverified
2	VAST	text-to-video R@1	63.9	—	Unverified
3	InternVideo2-6B	text-to-video R@1	62.8	—	Unverified
4	VALOR	text-to-video R@1	59.9	—	Unverified
5	UMT-L (ViT-L/16)	text-to-video R@1	58.8	—	Unverified
6	vid-TLDR (UMT-L)	text-to-video R@1	58.1	—	Unverified
7	COSA	text-to-video R@1	57.9	—	Unverified
8	InternVideo2-6B	text-to-video R@1	55.9	—	Unverified
9	InternVideo	text-to-video R@1	55.2	—	Unverified
10	VLAB	text-to-video R@1	55.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EMCL-Net (Ours)++ LSMDC Rohrbach et al. (2015)	text-to-video R@10	53.7	—	Unverified
2	InternVideo2-6B	text-to-video R@1	46.4	—	Unverified
3	vid-TLDR (UMT-L)	text-to-video R@1	43.1	—	Unverified
4	UMT-L (ViT-L/16)	text-to-video R@1	43	—	Unverified
5	HunYuan_tvr (huge)	text-to-video R@1	40.4	—	Unverified
6	COSA	text-to-video R@1	39.4	—	Unverified
7	mPLUG-2	text-to-video R@1	34.4	—	Unverified
8	VALOR	text-to-video R@1	34.2	—	Unverified
9	InternVideo	text-to-video R@1	34	—	Unverified
10	InternVideo2-6B	text-to-video R@1	33.8	—	Unverified