Video Retrieval

The objective of video retrieval is as follows: given a text query and a pool of candidate videos, select the video which corresponds to the text query. Typically, the videos are returned as a ranked list of candidates and scored via document retrieval metrics.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 486 papers

Title	Date	Tasks	Status	Hype
A CLIP-Hitchhiker's Guide to Long Video Retrieval	May 17, 2022	RetrievalVideo Retrieval	CodeCode Available	1
Learning to Retrieve Videos by Asking Questions	May 11, 2022	AI AgentRetrieval	CodeCode Available	0
TransRank: Self-supervised Video Representation Learning via Ranking-based Transformation Recognition	May 4, 2022	Action RecognitionRepresentation Learning	CodeCode Available	1
CoCa: Contrastive Captioners are Image-Text Foundation Models	May 4, 2022	Action ClassificationDecoder	CodeCode Available	1
CenterCLIP: Token Clustering for Efficient Text-Video Retrieval	May 2, 2022	ClusteringRetrieval	CodeCode Available	1
Learn to Understand Negation in Video Retrieval	Apr 30, 2022	Natural Language QueriesNegation	CodeCode Available	0
Relevance-based Margin for Contrastively-trained Video Retrieval Models	Apr 27, 2022	Multi-Instance RetrievalNatural Language Queries	CodeCode Available	0
MILES: Visual BERT Pre-training with Injected Language Semantics for Video-text Retrieval	Apr 26, 2022	Action RecognitionRetrieval	CodeCode Available	1
A Survey of Video-based Action Quality Assessment	Apr 20, 2022	Action Quality AssessmentAction Recognition	—Unverified	0
Modality-Balanced Embedding for Video Retrieval	Apr 18, 2022	RetrievalText Matching	—Unverified	0
COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval	Apr 15, 2022	Contrastive LearningCross-Modal Retrieval	—Unverified	0
Exploring the Temporal Cues to Enhance Video Retrieval on Standardized CDVA	Apr 11, 2022	RetrievalVideo Retrieval	CodeCode Available	0
Probabilistic Representations for Video Contrastive Learning	Apr 8, 2022	Action RecognitionContrastive Learning	—Unverified	0
Tencent Text-Video Retrieval: Hierarchical Cross-Modal Interactions with Multi-Level Representations	Apr 7, 2022	Contrastive LearningDenoising	—Unverified	0
Temporal Alignment Networks for Long-term Video	Apr 6, 2022	Action RecognitionAction Segmentation	CodeCode Available	1
ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound	Apr 6, 2022	RetrievalText to Video Retrieval	CodeCode Available	1
Learning Audio-Video Modalities from Image Captions	Apr 1, 2022	Image CaptioningRetrieval	—Unverified	0
Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language	Apr 1, 2022	DiversityImage Captioning	CodeCode Available	0
CREATE: A Benchmark for Chinese Short Video Retrieval and Title Generation	Mar 31, 2022	RetrievalVideo Captioning	—Unverified	0
Controllable Augmentations for Video Representation Learning	Mar 30, 2022	Action RecognitionContrastive Learning	—Unverified	0
X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval	Mar 28, 2022	RetrievalText to Video Retrieval	CodeCode Available	1
FitCLIP: Refining Large-Scale Pretrained Image-Text Models for Zero-Shot Video Understanding Tasks	Mar 24, 2022	Action RecognitionRetrieval	CodeCode Available	0
Learning video retrieval models with relevance-aware online mining	Mar 16, 2022	Multi-Instance RetrievalRetrieval	CodeCode Available	1
Revitalize Region Feature for Democratizing Video-Language Pre-training of Retrieval	Mar 15, 2022	Question AnsweringRetrieval	CodeCode Available	1
Show Me More Details: Discovering Hierarchies of Procedures from Semi-structured Web Data	Mar 14, 2022	ArticlesRetrieval	CodeCode Available	1
All in One: Exploring Unified Video-Language Pre-training	Mar 14, 2022	AllLanguage Modelling	CodeCode Available	2
MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One More Step Towards Generalization	Mar 14, 2022	RetrievalText to Video Retrieval	—Unverified	0
Disentangled Representation Learning for Text-Video Retrieval	Mar 14, 2022	Representation LearningRetrieval	CodeCode Available	1
Live Laparoscopic Video Retrieval with Compressed Uncertainty	Mar 8, 2022	RetrievalVideo Retrieval	—Unverified	0
VScript: Controllable Script Generation with Visual Presentation	Mar 1, 2022	Dialogue GenerationRetrieval	—Unverified	0
NEWSKVQA: Knowledge-Aware News Video Question Answering	Feb 8, 2022	Common Sense ReasoningManagement	—Unverified	0
Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval	Feb 7, 2022	Contrastive LearningQuantization	CodeCode Available	1
Reading-strategy Inspired Visual Representation Learning for Text-to-Video Retrieval	Jan 23, 2022	Representation LearningRetrieval	CodeCode Available	1
Self-supervised Video Representation Learning with Cascade Positive Retrieval	Jan 20, 2022	Action RecognitionContrastive Learning	CodeCode Available	0
End-to-end Generative Pretraining for Multimodal Video Captioning	Jan 20, 2022	Action ClassificationDecoder	—Unverified	0
Bridging Video-text Retrieval with Multiple Choice Questions	Jan 13, 2022	Action RecognitionLinear evaluation	CodeCode Available	1
Multi-Query Video Retrieval	Jan 10, 2022	RetrievalVideo Retrieval	CodeCode Available	1
Watch Less and Uncover More: Could Navigation Tools Help Users Search and Explore Videos?	Jan 10, 2022	Information RetrievalRetrieval	—Unverified	0
Sign Language Video Retrieval with Free-Form Textual Queries	Jan 7, 2022	FormRetrieval	—Unverified	0
Sound and Visual Representation Learning with Multiple Pretraining Tasks	Jan 4, 2022	Incremental LearningRepresentation Learning	—Unverified	0
Everything at Once - Multi-Modal Fusion Transformer for Video Retrieval	Jan 1, 2022	Action LocalizationRetrieval	CodeCode Available	1
Video Joint Modelling Based on Hierarchical Transformer for Co-summarization	Dec 27, 2021	RetrievalSupervised Video Summarization	CodeCode Available	1
Cross Modal Retrieval with Querybank Normalisation	Dec 23, 2021	Cross-Modal RetrievalMetric Learning	CodeCode Available	1
Align and Prompt: Video-and-Language Pre-training with Entity Prompts	Dec 17, 2021	cross-modal alignmentEntity Alignment	CodeCode Available	1
Vision Transformer Based Video Hashing Retrieval for Tracing the Source of Fake Videos	Dec 15, 2021	RetrievalTriplet	CodeCode Available	0
Self-supervised Spatiotemporal Representation Learning by Exploiting Video Continuity	Dec 11, 2021	Action LocalizationAction Recognition	—Unverified	0
Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval	Dec 8, 2021	Action LocalizationRetrieval	CodeCode Available	1
Prompting Visual-Language Models for Efficient Video Understanding	Dec 8, 2021	Action RecognitionLanguage Modelling	CodeCode Available	1
Cross-modal Manifold Cutmix for Self-supervised Video Representation Learning	Dec 7, 2021	Action RecognitionRepresentation Learning	—Unverified	0
Time-Equivariant Contrastive Video Representation Learning	Dec 7, 2021	Action RecognitionContrastive Learning	—Unverified	0

Show:10 25 50

← PrevPage 6 of 10Next →

All datasets MSR-VTT-1kA DiDeMo MSR-VTT LSMDC ActivityNet MSVD YouCook2 FIVR-200K VATEX QuerYD SSv2-label retrieval SSv2-template retrieval

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	OmniVec	text-to-video R@10	89.4	—	Unverified
2	CLIP4Clip	text-to-video R@10	81.6	—	Unverified
3	OmniVec (pretrained)	text-to-video R@10	78.6	—	Unverified
4	HunYuan_tvr (huge)	text-to-video R@1	62.9	—	Unverified
5	CLIP-ViP	text-to-video R@1	57.7	—	Unverified
6	PIDRo	text-to-video R@1	55.9	—	Unverified
7	DMAE (ViT-B/16)	text-to-video R@1	55.5	—	Unverified
8	HunYuan_tvr	text-to-video R@1	55	—	Unverified
9	MuLTI	text-to-video R@1	54.7	—	Unverified
10	EERCF	text-to-video R@1	54.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Aurora (ours, r=64)	text-to-video R@5	77.4	—	Unverified
2	InternVideo2-6B	text-to-video R@1	74.2	—	Unverified
3	vid-TLDR (UMT-L)	text-to-video R@1	72.3	—	Unverified
4	VAST	text-to-video R@1	72	—	Unverified
5	COSA	text-to-video R@1	70.5	—	Unverified
6	UMT-L (ViT-L/16)	text-to-video R@1	70.4	—	Unverified
7	GRAM	text-to-video R@1	67.3	—	Unverified
8	VALOR	text-to-video R@1	61.5	—	Unverified
9	TESTA (ViT-B/16)	text-to-video R@1	61.2	—	Unverified
10	VindLU	text-to-video R@1	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GRAM	text-to-video R@1	64	—	Unverified
2	VAST	text-to-video R@1	63.9	—	Unverified
3	InternVideo2-6B	text-to-video R@1	62.8	—	Unverified
4	VALOR	text-to-video R@1	59.9	—	Unverified
5	UMT-L (ViT-L/16)	text-to-video R@1	58.8	—	Unverified
6	vid-TLDR (UMT-L)	text-to-video R@1	58.1	—	Unverified
7	COSA	text-to-video R@1	57.9	—	Unverified
8	InternVideo2-6B	text-to-video R@1	55.9	—	Unverified
9	InternVideo	text-to-video R@1	55.2	—	Unverified
10	VLAB	text-to-video R@1	55.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EMCL-Net (Ours)++ LSMDC Rohrbach et al. (2015)	text-to-video R@10	53.7	—	Unverified
2	InternVideo2-6B	text-to-video R@1	46.4	—	Unverified
3	vid-TLDR (UMT-L)	text-to-video R@1	43.1	—	Unverified
4	UMT-L (ViT-L/16)	text-to-video R@1	43	—	Unverified
5	HunYuan_tvr (huge)	text-to-video R@1	40.4	—	Unverified
6	COSA	text-to-video R@1	39.4	—	Unverified
7	mPLUG-2	text-to-video R@1	34.4	—	Unverified
8	VALOR	text-to-video R@1	34.2	—	Unverified
9	InternVideo	text-to-video R@1	34	—	Unverified
10	InternVideo2-6B	text-to-video R@1	33.8	—	Unverified