SOTAVerified|Agents Browse Leaderboard About Blog

Video-Text Retrieval

Video-Text retrieval requires understanding of both video and language together. Therefore it's different to video retrieval task.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 111 papers

Title	Date	Tasks	Status	Hype
DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval	Jun 10, 2025	Image CaptioningRetrieval	CodeCode Available	1
One Trajectory, One Token: Grounded Video Tokenization via Panoptic Sub-object Trajectory	May 29, 2025	Contrastive LearningText Retrieval	CodeCode Available	2
LoVR: A Benchmark for Long Video Retrieval in Multimodal Contexts	May 20, 2025	Caption GenerationRetrieval	CodeCode Available	1
Towards Understanding Camera Motions in Any Video	Apr 21, 2025	Question AnsweringText Retrieval	—Unverified	0
LV-MAE: Learning Long Video Representations through Masked-Embedding Autoencoders	Apr 4, 2025	Self-Supervised LearningText Retrieval	—Unverified	0
Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval	Apr 3, 2025	Information RetrievalRepresentation Learning	—Unverified	0
V^2Dial: Unification of Video and Visual Dialog via Multimodal Experts	Mar 3, 2025	Contrastive LearningText Retrieval	—Unverified	0
Temporal Working Memory: Query-Guided Segment Refinement for Enhanced Multimodal Understanding	Feb 9, 2025	Image CaptioningImage-text Retrieval	CodeCode Available	3
Expertized Caption Auto-Enhancement for Video-Text Retrieval	Feb 5, 2025	Caption GenerationRetrieval	CodeCode Available	0
V^2Dial: Unification of Video and Visual Dialog via Multimodal Experts	Jan 1, 2025	Contrastive LearningText Retrieval	—Unverified	0
Rethinking Noisy Video-Text Retrieval via Relation-aware Alignment	Jan 1, 2025	RelationRetrieval	—Unverified	0
CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval	Dec 31, 2024	RetrievalText Retrieval	—Unverified	0
Reversed in Time: A Novel Temporal-Emphasized Benchmark for Cross-Modal Video-Text Retrieval	Dec 26, 2024	Image-text RetrievalInformation Retrieval	CodeCode Available	0
CAREL: Instruction-guided reinforcement learning with cross-modal auxiliary objectives	Nov 29, 2024	reinforcement-learningReinforcement Learning	CodeCode Available	0
Beyond Coarse-Grained Matching in Video-Text Retrieval	Oct 16, 2024	RetrievalText Retrieval	—Unverified	0
Text Proxy: Decomposing Retrieval from a 1-to-N Relationship into N 1-to-1 Relationships for Text-Video Retrieval	Oct 9, 2024	RetrievalText Retrieval	CodeCode Available	1
NAVERO: Unlocking Fine-Grained Semantics for Video-Language Compositionality	Aug 18, 2024	RetrievalText Retrieval	—Unverified	0
Learning Video Context as Interleaved Multimodal Sequences	Jul 31, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Video-Language Alignment via Spatio-Temporal Graph Transformer	Jul 16, 2024	Contrastive LearningQuestion Answering	CodeCode Available	1
EA-VTR: Event-Aware Video-Text Retrieval	Jul 10, 2024	Action RecognitionContrastive Learning	—Unverified	0
Multi-Scale Temporal Difference Transformer for Video-Text Retrieval	Jun 23, 2024	RetrievalText Retrieval	—Unverified	0
Diving Deep into the Motion Representation of Video-Text Models	Jun 7, 2024	RetrievalText Retrieval	CodeCode Available	0
HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model	Jun 1, 2024	Action RecognitionActivity Recognition	—Unverified	0
Uncertainty-aware sign language video retrieval with probability distribution modeling	May 30, 2024	RetrievalSign Language Retrieval	—Unverified	0
An Empirical Study of Excitation and Aggregation Design Adaptions in CLIP4Clip for Video-Text Retrieval	May 25, 2024	RetrievalText Retrieval	—Unverified	0

Show:10 25 50

← PrevPage 1 of 5Next →

No leaderboard results yet.