Video-Text Retrieval

Video-Text retrieval requires understanding of both video and language together. Therefore it's different to video retrieval task.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 111 papers

Title	Date	Tasks	Status	Hype
Helping Hands: An Object-Aware Ego-Centric Video Recognition Model	Aug 15, 2023	DecoderObject	CodeCode Available	1
Global and Local Semantic Completion Learning for Vision-Language Pre-training	Jun 12, 2023	cross-modal alignmentImage-text Retrieval	CodeCode Available	1
SViTT: Temporal Learning of Sparse Video-Text Transformers	Apr 18, 2023	Question AnsweringRetrieval	CodeCode Available	1
Cross-Modal Retrieval with Partially Mismatched Pairs	Feb 22, 2023	Contrastive LearningCross-Modal Retrieval	CodeCode Available	1
UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-modal Modeling	Feb 13, 2023	Image-text RetrievalRetrieval	CodeCode Available	1
Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge Transferring	Jan 26, 2023	Representation LearningRetrieval	CodeCode Available	1
MV-Adapter: Multimodal Video Transfer Learning for Video Text Retrieval	Jan 19, 2023	RetrievalText Retrieval	CodeCode Available	1
Test of Time: Instilling Video-Language Models with a Sense of Time	Jan 5, 2023	Video-Text RetrievalVideo Understanding	CodeCode Available	1
Seeing What You Miss: Vision-Language Pre-training with Semantic Completion Learning	Nov 24, 2022	cross-modal alignmentImage-text Retrieval	CodeCode Available	1
VTC: Improving Video-Text Retrieval with User Comments	Oct 19, 2022	Representation LearningRetrieval	CodeCode Available	1
X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text Retrieval	Jul 15, 2022	Contrastive LearningRetrieval	CodeCode Available	1
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections	May 24, 2022	Computational Efficiencycross-modal alignment	CodeCode Available	1
MILES: Visual BERT Pre-training with Injected Language Semantics for Video-text Retrieval	Apr 26, 2022	Action RecognitionRetrieval	CodeCode Available	1
X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval	Mar 28, 2022	RetrievalText to Video Retrieval	CodeCode Available	1
Bridging Video-text Retrieval with Multiple Choice Questions	Jan 13, 2022	Action RecognitionLinear evaluation	CodeCode Available	1
Video-Text Pre-training with Learned Regions	Dec 2, 2021	Representation LearningRetrieval	CodeCode Available	1
Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss	Sep 9, 2021	Mixture-of-ExpertsRetrieval	CodeCode Available	1
HANet: Hierarchical Alignment Networks for Video-Text Retrieval	Jul 26, 2021	RetrievalText Matching	CodeCode Available	1
CLIP2Video: Mastering Video-Text Retrieval via Image CLIP	Jun 21, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval	Apr 18, 2021	RetrievalText Retrieval	CodeCode Available	1
Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval	Apr 1, 2021	RetrievalText Retrieval	CodeCode Available	1
Learning the Best Pooling Strategy for Visual Semantic Embedding	Nov 9, 2020	Cross-Modal Information RetrievalImage-text Retrieval	CodeCode Available	1
COOT: Cooperative Hierarchical Transformer for Video-Text Representation Learning	Nov 1, 2020	Cross-Modal RetrievalRepresentation Learning	CodeCode Available	1
Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning	Mar 1, 2020	Cross-Modal RetrievalRetrieval	CodeCode Available	1
Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval	Jun 11, 2019	Cross-Modal RetrievalMultiple Instance Learning	CodeCode Available	1

Show:10 25 50

← PrevPage 2 of 5Next →

No leaderboard results yet.