SOTAVerified|Agents Browse Leaderboard About Blog

Video-Text Retrieval

Video-Text retrieval requires understanding of both video and language together. Therefore it's different to video retrieval task.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 21–30 of 111 papers

Title	Date	Tasks	Status	Hype	Score
DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval	Jun 10, 2025	Image CaptioningRetrieval	CodeCode Available	1	5
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks	Dec 21, 2023	Image RetrievalImage-to-Text Retrieval	CodeCode Available	1	5
MV-Adapter: Multimodal Video Transfer Learning for Video Text Retrieval	Jan 19, 2023	RetrievalText Retrieval	CodeCode Available	1	5
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval	Apr 18, 2021	RetrievalText Retrieval	CodeCode Available	1	5
Global and Local Semantic Completion Learning for Vision-Language Pre-training	Jun 12, 2023	cross-modal alignmentImage-text Retrieval	CodeCode Available	1	5
HANet: Hierarchical Alignment Networks for Video-Text Retrieval	Jul 26, 2021	RetrievalText Matching	CodeCode Available	1	5
Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning	Mar 1, 2020	Cross-Modal RetrievalRetrieval	CodeCode Available	1	5
Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval	Apr 1, 2021	RetrievalText Retrieval	CodeCode Available	1	5
Building an Open-Vocabulary Video CLIP Model with Better Architectures, Optimization and Data	Oct 8, 2023	Action RecognitionContinual Learning	CodeCode Available	1	5
Helping Hands: An Object-Aware Ego-Centric Video Recognition Model	Aug 15, 2023	DecoderObject	CodeCode Available	1	5

Show:10 25 50

← PrevPage 3 of 12Next →

No leaderboard results yet.