Zero-Shot Cross-Modal Retrieval

Zero-Shot Cross-Modal Retrieval is the task of finding relevant items across different modalities without having received any training examples. For example, given an image, find a text or vice versa. This task presents a unique challenge known as the heterogeneity gap, which arises because items from different modalities (such as text and images) have inherently different data types. As a result, measuring similarity between these modalities directly is difficult. To address this, most current approaches aim to bridge the heterogeneity gap by learning a shared latent representation space. In this space, data from different modalities are projected into a common representation, where similarity between items, regardless of modality, can be directly measured.

Source: Extending CLIP for Category-to-image Retrieval in E-commerce

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 26 papers

Title	Date	Tasks	Status	Hype
AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities	Nov 12, 2022	Contrastive LearningCross-Modal Retrieval	CodeCode Available	4
Flamingo: a Visual Language Model for Few-Shot Learning	Apr 29, 2022	Few-Shot LearningGenerative Visual Question Answering	CodeCode Available	4
Merlin: A Vision Language Foundation Model for 3D Computed Tomography	Jun 10, 2024	3D Semantic SegmentationComputed Tomography (CT)	CodeCode Available	3
VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset	May 29, 2023	Audio captioningAudio-Visual Captioning	CodeCode Available	2
Vision-Language Pre-Training with Triple Contrastive Learning	Feb 21, 2022	Contrastive Learningcross-modal alignment	CodeCode Available	2
Learning Transferable Visual Models From Natural Language Supervision	Feb 26, 2021	Action RecognitionBenchmarking	CodeCode Available	2
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision	Feb 11, 2021	Cross-Modal RetrievalFine-Grained Image Classification	CodeCode Available	2
IMPACT: A Large-scale Integrated Multimodal Patent Analysis and Creation Dataset for Design Patents	Dec 10, 2024	Cross-Modal RetrievalImage Classification	CodeCode Available	1
COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training	Dec 2, 2024	Self-Supervised LearningSemantic Segmentation	CodeCode Available	1
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks	Dec 21, 2023	Image RetrievalImage-to-Text Retrieval	CodeCode Available	1
Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision Transformers	May 11, 2023	Contrastive LearningImage-text Retrieval	CodeCode Available	1
Position-guided Text Prompt for Vision-Language Pre-training	Dec 19, 2022	Cross-Modal RetrievalImage Captioning	CodeCode Available	1
Reproducible scaling laws for contrastive language-image learning	Dec 14, 2022	Image ClassificationOpen Vocabulary Attribute Detection	CodeCode Available	1
CoCa: Contrastive Captioners are Image-Text Foundation Models	May 4, 2022	Action ClassificationDecoder	CodeCode Available	1
Florence: A New Foundation Model for Computer Vision	Nov 22, 2021	Action ClassificationAction Recognition	CodeCode Available	1
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation	Jul 16, 2021	Cross-Modal RetrievalGrounded language learning	CodeCode Available	1
ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision	Feb 5, 2021	Cross-Modal RetrievalImage Retrieval	CodeCode Available	1
UNITER: UNiversal Image-TExt Representation Learning	Sep 25, 2019	Image-text matchingImage-text Retrieval	CodeCode Available	1
FineLIP: Extending CLIP's Reach via Fine-Grained Alignment with Longer Text Inputs	Apr 2, 2025	cross-modal alignmentCross-Modal Retrieval	—Unverified	0
A Recipe for Improving Remote Sensing VLM Zero Shot Generalization	Mar 10, 2025	Cross-Modal RetrievalZero-Shot Cross-Modal Retrieval	—Unverified	0
M2-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale Efficient Pretraining	Jan 29, 2024	GPUzero-shot-classification	CodeCode Available	0
Implicit Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis	Sep 21, 2023	Cross-Modal RetrievalImage Captioning	CodeCode Available	0
ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text Pre-training	Sep 30, 2022	Computational EfficiencyContrastive Learning	—Unverified	0
Information-Theoretic Hashing for Zero-Shot Cross-Modal Retrieval	Sep 26, 2022	Cross-Modal RetrievalRetrieval	—Unverified	0
Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks	Aug 22, 2022	AllCross-Modal Retrieval	CodeCode Available	0

Show:10 25 50

← PrevPage 1 of 2Next →

No leaderboard results yet.