Video-Text Retrieval

Video-Text retrieval requires understanding of both video and language together. Therefore it's different to video retrieval task.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 111 papers

Title	Date	Tasks	Status	Score
Reversed in Time: A Novel Temporal-Emphasized Benchmark for Cross-Modal Video-Text Retrieval	Dec 26, 2024	Image-text RetrievalInformation Retrieval	CodeCode Available	5
CAREL: Instruction-guided reinforcement learning with cross-modal auxiliary objectives	Nov 29, 2024	reinforcement-learningReinforcement Learning	CodeCode Available	5
Diving Deep into the Motion Representation of Video-Text Models	Jun 7, 2024	RetrievalText Retrieval	CodeCode Available	5
Expertized Caption Auto-Enhancement for Video-Text Retrieval	Feb 5, 2025	Caption GenerationRetrieval	CodeCode Available	5
Learning Joint Embedding with Multimodal Cues for Cross-Modal Video-Text Retrieval	Jun 11, 2018	Image-text RetrievalRetrieval	CodeCode Available	5
Rudder: A Cross Lingual Video and Text Retrieval Dataset	Mar 9, 2021	Natural Language QueriesRetrieval	CodeCode Available	5
TaCA: Upgrading Your Visual Foundation Model with Task-agnostic Compatible Adapter	Jun 22, 2023	Question AnsweringRetrieval	CodeCode Available	5
Video-Text Retrieval by Supervised Sparse Multi-Grained Learning	Feb 19, 2023	Representation LearningRetrieval	CodeCode Available	5
Multi-Scale Temporal Difference Transformer for Video-Text Retrieval	Jun 23, 2024	RetrievalText Retrieval	—Unverified	0
NAVERO: Unlocking Fine-Grained Semantics for Video-Language Compositionality	Aug 18, 2024	RetrievalText Retrieval	—Unverified	0
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks	Sep 15, 2022	Action ClassificationAction Recognition	—Unverified	0
LV-MAE: Learning Long Video Representations through Masked-Embedding Autoencoders	Apr 4, 2025	Self-Supervised LearningText Retrieval	—Unverified	0
Leveraging Generative Language Models for Weakly Supervised Sentence Component Analysis in Video-Language Joint Learning	Dec 10, 2023	Language ModelingLanguage Modelling	—Unverified	0
Learning with Noisy Correspondence	Apr 13, 2024	Cross-Modal RetrievalCross-modal retrieval with noisy correspondence	—Unverified	0
Learning Context-Adapted Video-Text Retrieval by Attending to User Comments	Sep 29, 2021	RetrievalText Retrieval	—Unverified	0
Rethinking Noisy Video-Text Retrieval via Relation-aware Alignment	Jan 1, 2025	RelationRetrieval	—Unverified	0
RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning	May 11, 2024	Image-text matchingRetrieval	—Unverified	0
Retrieving and Highlighting Action with Spatiotemporal Reference	May 19, 2020	Action RecognitionCross-Modal Retrieval	—Unverified	0
Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval	Apr 3, 2025	Information RetrievalRepresentation Learning	—Unverified	0
LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval	Jul 11, 2022	Representation LearningRetrieval	—Unverified	0
HiVLP: Hierarchical Interactive Video-Language Pre-Training	Jan 1, 2023	RetrievalSelf-Supervised Learning	—Unverified	0
Beyond Coarse-Grained Matching in Video-Text Retrieval	Oct 16, 2024	RetrievalText Retrieval	—Unverified	0
HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval	Mar 28, 2021	RetrievalText Retrieval	—Unverified	0
Stacked Convolutional Deep Encoding Network for Video-Text Retrieval	Apr 10, 2020	Language ModelingLanguage Modelling	—Unverified	0
HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model	Jun 1, 2024	Action RecognitionActivity Recognition	—Unverified	0

Show:10 25 50

← PrevPage 3 of 5Next →

No leaderboard results yet.