Video Retrieval

The objective of video retrieval is as follows: given a text query and a pool of candidate videos, select the video which corresponds to the text query. Typically, the videos are returned as a ranked list of candidates and scored via document retrieval metrics.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 486 papers

Title	Date	Tasks	Status	Hype
Revitalize Region Feature for Democratizing Video-Language Pre-training of Retrieval	Mar 15, 2022	Question AnsweringRetrieval	CodeCode Available	1
Disentangled Representation Learning for Text-Video Retrieval	Mar 14, 2022	Representation LearningRetrieval	CodeCode Available	1
Show Me More Details: Discovering Hierarchies of Procedures from Semi-structured Web Data	Mar 14, 2022	ArticlesRetrieval	CodeCode Available	1
Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval	Feb 7, 2022	Contrastive LearningQuantization	CodeCode Available	1
Reading-strategy Inspired Visual Representation Learning for Text-to-Video Retrieval	Jan 23, 2022	Representation LearningRetrieval	CodeCode Available	1
Bridging Video-text Retrieval with Multiple Choice Questions	Jan 13, 2022	Action RecognitionLinear evaluation	CodeCode Available	1
Multi-Query Video Retrieval	Jan 10, 2022	RetrievalVideo Retrieval	CodeCode Available	1
Everything at Once - Multi-Modal Fusion Transformer for Video Retrieval	Jan 1, 2022	Action LocalizationRetrieval	CodeCode Available	1
Video Joint Modelling Based on Hierarchical Transformer for Co-summarization	Dec 27, 2021	RetrievalSupervised Video Summarization	CodeCode Available	1
Cross Modal Retrieval with Querybank Normalisation	Dec 23, 2021	Cross-Modal RetrievalMetric Learning	CodeCode Available	1
Align and Prompt: Video-and-Language Pre-training with Entity Prompts	Dec 17, 2021	cross-modal alignmentEntity Alignment	CodeCode Available	1
Prompting Visual-Language Models for Efficient Video Understanding	Dec 8, 2021	Action RecognitionLanguage Modelling	CodeCode Available	1
Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval	Dec 8, 2021	Action LocalizationRetrieval	CodeCode Available	1
TCGL: Temporal Contrastive Graph for Self-supervised Video Representation Learning	Dec 7, 2021	Action RecognitionContrastive Learning	CodeCode Available	1
Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval	Dec 3, 2021	Ad-hoc video searchfeature selection	CodeCode Available	1
AssistSR: Task-oriented Video Segment Retrieval for Personal AI Assistant	Nov 30, 2021	Question AnsweringRetrieval	CodeCode Available	1
Video Content Classification using Deep Learning	Nov 27, 2021	ClassificationDeep Learning	CodeCode Available	1
VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling	Nov 24, 2021	Question AnsweringRetrieval	CodeCode Available	1
Florence: A New Foundation Model for Computer Vision	Nov 22, 2021	Action ClassificationAction Recognition	CodeCode Available	1
Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions	Nov 19, 2021	RetrievalSuper-Resolution	CodeCode Available	1
BiC-Net: Learning Efficient Spatio-Temporal Relation for Text-Video Retrieval	Oct 29, 2021	Cross-Modal RetrievalRelation	CodeCode Available	1
Video and Text Matching with Conditioned Embeddings	Oct 21, 2021	Machine TranslationSentence	CodeCode Available	1
CONQUER: Contextual Query-aware Ranking for Video Corpus Moment Retrieval	Sep 21, 2021	Corpus Video Moment RetrievalMoment Retrieval	CodeCode Available	1
Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss	Sep 9, 2021	Mixture-of-ExpertsRetrieval	CodeCode Available	1
Video Contrastive Learning with Global Context	Aug 5, 2021	Action ClassificationAction Localization	CodeCode Available	1
DnS: Distill-and-Select for Efficient and Accurate Video Indexing and Retrieval	Jun 24, 2021	Computational EfficiencyKnowledge Distillation	CodeCode Available	1
CLIP2Video: Mastering Video-Text Retrieval via Image CLIP	Jun 21, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
Self-Supervised Video Hashing via Bidirectional Transformers	Jun 19, 2021	DecoderRetrieval	CodeCode Available	1
Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting	Jun 18, 2021	Action RecognitionAction Recognition In Videos	CodeCode Available	1
VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation	Jun 8, 2021	Multi-Task LearningQuestion Answering	CodeCode Available	1
DeCEMBERT: Learning from Noisy Instructional Videos via Dense Captions and Entropy Minimization	Jun 1, 2021	Question AnsweringRetrieval	CodeCode Available	1
TRECVID 2020: A comprehensive campaign for evaluating video retrieval tasks across multiple application domains	Apr 27, 2021	Ad-hoc video searchInstance Search	CodeCode Available	1
Multimodal Clustering Networks for Self-supervised Learning from Unlabeled Videos	Apr 26, 2021	Action LocalizationClustering	CodeCode Available	1
VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text	Apr 22, 2021	Action ClassificationAction Recognition	CodeCode Available	1
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval	Apr 18, 2021	RetrievalText Retrieval	CodeCode Available	1
TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval	Apr 16, 2021	RetrievalVideo Retrieval	CodeCode Available	1
Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval	Apr 1, 2021	RetrievalText Retrieval	CodeCode Available	1
MDMMT: Multidomain Multimodal Transformer for Video Retrieval	Mar 19, 2021	RetrievalText to Video Retrieval	CodeCode Available	1
On Semantic Similarity in Video Retrieval	Mar 18, 2021	RetrievalSemantic Similarity	CodeCode Available	1
A Straightforward Framework For Video Retrieval Using CLIP	Feb 24, 2021	RetrievalVideo Retrieval	CodeCode Available	1
SeqNet: Learning Descriptors for Sequence-based Hierarchical Place Recognition	Feb 23, 2021	Autonomous DrivingImage Retrieval	CodeCode Available	1
Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling	Feb 11, 2021	Question AnsweringRetrieval	CodeCode Available	1
COOT: Cooperative Hierarchical Transformer for Video-Text Representation Learning	Nov 1, 2020	Cross-Modal RetrievalRepresentation Learning	CodeCode Available	1
Pretext-Contrastive Learning: Toward Good Practices in Self-supervised Video Representation Leaning	Oct 29, 2020	Contrastive LearningData Augmentation	CodeCode Available	1
RSPNet: Relative Speed Perception for Unsupervised Video Representation Learning	Oct 27, 2020	Action RecognitionRepresentation Learning	CodeCode Available	1
Self-supervised Co-training for Video Representation Learning	Oct 19, 2020	Action RecognitionContrastive Learning	CodeCode Available	1
Audio-based Near-Duplicate Video Retrieval with Audio Similarity Learning	Oct 17, 2020	RetrievalTransfer Learning	CodeCode Available	1
Dual Encoding for Video Retrieval by Text	Sep 10, 2020	Ad-hoc video searchRetrieval	CodeCode Available	1
Self-supervised Video Representation Learning by Uncovering Spatio-temporal Statistics	Aug 31, 2020	Action RecognitionRepresentation Learning	CodeCode Available	1
Self-supervised Video Representation Learning by Pace Prediction	Aug 13, 2020	Action RecognitionContrastive Learning	CodeCode Available	1

Show:10 25 50

← PrevPage 3 of 10Next →

All datasets MSR-VTT-1kA DiDeMo MSR-VTT LSMDC ActivityNet MSVD YouCook2 FIVR-200K VATEX QuerYD SSv2-label retrieval SSv2-template retrieval

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	OmniVec	text-to-video R@10	89.4	—	Unverified
2	CLIP4Clip	text-to-video R@10	81.6	—	Unverified
3	OmniVec (pretrained)	text-to-video R@10	78.6	—	Unverified
4	HunYuan_tvr (huge)	text-to-video R@1	62.9	—	Unverified
5	CLIP-ViP	text-to-video R@1	57.7	—	Unverified
6	PIDRo	text-to-video R@1	55.9	—	Unverified
7	DMAE (ViT-B/16)	text-to-video R@1	55.5	—	Unverified
8	HunYuan_tvr	text-to-video R@1	55	—	Unverified
9	MuLTI	text-to-video R@1	54.7	—	Unverified
10	EERCF	text-to-video R@1	54.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Aurora (ours, r=64)	text-to-video R@5	77.4	—	Unverified
2	InternVideo2-6B	text-to-video R@1	74.2	—	Unverified
3	vid-TLDR (UMT-L)	text-to-video R@1	72.3	—	Unverified
4	VAST	text-to-video R@1	72	—	Unverified
5	COSA	text-to-video R@1	70.5	—	Unverified
6	UMT-L (ViT-L/16)	text-to-video R@1	70.4	—	Unverified
7	GRAM	text-to-video R@1	67.3	—	Unverified
8	VALOR	text-to-video R@1	61.5	—	Unverified
9	TESTA (ViT-B/16)	text-to-video R@1	61.2	—	Unverified
10	VindLU	text-to-video R@1	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GRAM	text-to-video R@1	64	—	Unverified
2	VAST	text-to-video R@1	63.9	—	Unverified
3	InternVideo2-6B	text-to-video R@1	62.8	—	Unverified
4	VALOR	text-to-video R@1	59.9	—	Unverified
5	UMT-L (ViT-L/16)	text-to-video R@1	58.8	—	Unverified
6	vid-TLDR (UMT-L)	text-to-video R@1	58.1	—	Unverified
7	COSA	text-to-video R@1	57.9	—	Unverified
8	InternVideo2-6B	text-to-video R@1	55.9	—	Unverified
9	InternVideo	text-to-video R@1	55.2	—	Unverified
10	VLAB	text-to-video R@1	55.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EMCL-Net (Ours)++ LSMDC Rohrbach et al. (2015)	text-to-video R@10	53.7	—	Unverified
2	InternVideo2-6B	text-to-video R@1	46.4	—	Unverified
3	vid-TLDR (UMT-L)	text-to-video R@1	43.1	—	Unverified
4	UMT-L (ViT-L/16)	text-to-video R@1	43	—	Unverified
5	HunYuan_tvr (huge)	text-to-video R@1	40.4	—	Unverified
6	COSA	text-to-video R@1	39.4	—	Unverified
7	mPLUG-2	text-to-video R@1	34.4	—	Unverified
8	VALOR	text-to-video R@1	34.2	—	Unverified
9	InternVideo	text-to-video R@1	34	—	Unverified
10	InternVideo2-6B	text-to-video R@1	33.8	—	Unverified