Cross-Modal Retrieval

Cross-Modal Retrieval (CMR) is a task of retrieving items across different modalities, such as image, text, video, and audio. The core challenge of CMR is the heterogeneity gap, which arises because data from different modalities have distinct representations, making direct comparison difficult. To address this, most CMR methods focus on learning a shared latent embedding space. In this space, concepts from different modalities are projected, allowing their similarity to be measured using a distance metric.

Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 522 papers

Title	Date	Tasks	Status	Hype
FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified Retrieval and Captioning	Oct 26, 2022	Cross-Modal RetrievalDecoder	—Unverified	0
Learning by Hallucinating: Vision-Language Pre-training with Weak Supervision	Oct 24, 2022	cross-modal alignmentCross-Modal Retrieval	—Unverified	0
Dissecting Deep Metric Learning Losses for Image-Text Retrieval	Oct 21, 2022	Cross-Modal RetrievalImage-text matching	CodeCode Available	0
PoseScript: Linking 3D Human Poses and Natural Language	Oct 21, 2022	Cross-Modal RetrievalImage Captioning	CodeCode Available	2
Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image Retrieval	Oct 19, 2022	Cross-Modal RetrievalImage Retrieval	CodeCode Available	1
Cross-modal Search Method of Technology Video based on Adversarial Learning and Feature Fusion	Oct 11, 2022	Cross-Modal RetrievalRetrieval	—Unverified	0
Deep Evidential Learning with Noisy Correspondence for Cross-Modal Retrieval	Oct 10, 2022	Cross-Modal RetrievalCross-modal retrieval with noisy correspondence	CodeCode Available	1
ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text Pre-training	Sep 30, 2022	Computational EfficiencyContrastive Learning	CodeCode Available	0
Text-Adaptive Multiple Visual Prototype Matching for Video-Text Retrieval	Sep 27, 2022	Cross-Modal RetrievalRetrieval	—Unverified	0
Information-Theoretic Hashing for Zero-Shot Cross-Modal Retrieval	Sep 26, 2022	Cross-Modal RetrievalRetrieval	—Unverified	0
Deep Manifold Hashing: A Divide-and-Conquer Approach for Semi-Paired Unsupervised Cross-Modal Retrieval	Sep 26, 2022	Cross-Modal RetrievalRetrieval	—Unverified	0
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks	Sep 15, 2022	Action ClassificationAction Recognition	—Unverified	0
Learning to Evaluate Performance of Multi-modal Semantic Localization	Sep 14, 2022	Cross-Modal RetrievalReferring Expression	CodeCode Available	1
A Molecular Multimodal Foundation Model Associating Molecule Graphs with Natural Language	Sep 12, 2022	Contrastive LearningCross-Modal Retrieval	CodeCode Available	1
A Channel Mix Method for Fine-Grained Cross-Modal Retrieval	Aug 26, 2022	Cross-Modal RetrievalRetrieval	CodeCode Available	0
Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning	Aug 26, 2022	Cross-Modal RetrievalMachine Translation	CodeCode Available	1
MuLan: A Joint Embedding of Music Audio and Natural Language	Aug 26, 2022	Cross-Modal RetrievalMusic Tagging	CodeCode Available	0
Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks	Aug 22, 2022	AllCross-Modal Retrieval	CodeCode Available	0
See What You See: Self-supervised Cross-modal Retrieval of Visual Stimuli from Brain Activity	Aug 7, 2022	cross-modal alignmentCross-Modal Retrieval	—Unverified	0
Learning Modal-Invariant and Temporal-Memory for Video-based Visible-Infrared Person Re-Identification	Aug 4, 2022	Cross-Modal RetrievalPerson Re-Identification	CodeCode Available	1
ALADIN: Distilling Fine-grained Alignment Scores for Efficient Image-Text Matching and Retrieval	Jul 29, 2022	Cross-Modal RetrievalImage-text matching	CodeCode Available	0
Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text Retrieval	Jul 29, 2022	Cross-Modal RetrievalData Augmentation	—Unverified	0
Adaptive Asymmetric Label-guided Hashing for Multimedia Search	Jul 26, 2022	Cross-Modal RetrievalQuantization	—Unverified	0
Intra-Modal Constraint Loss For Image-Text Retrieval	Jul 11, 2022	Cross-Modal RetrievalImage-text Retrieval	CodeCode Available	0
Integrating multi-label contrastive learning with dual adversarial graph neural networks for cross-modal retrieval	Jul 5, 2022	Contrastive LearningCross-Modal Retrieval	CodeCode Available	1
Contrastive Cross-Modal Knowledge Sharing Pre-training for Vision-Language Representation Learning and Retrieval	Jul 2, 2022	Contrastive LearningCross-Modal Retrieval	—Unverified	0
Exploiting Transformation Invariance and Equivariance for Self-supervised Sound Localisation	Jun 26, 2022	Cross-Modal RetrievalRepresentation Learning	—Unverified	0
Emphasizing Complementary Samples for Non-literal Cross-modal Retrieval	Jun 25, 2022	Cross-Modal RetrievalRetrieval	—Unverified	0
Comprehending and Ordering Semantics for Image Captioning	Jun 14, 2022	Cross-Modal RetrievalImage Captioning	CodeCode Available	2
HiVLP: Hierarchical Vision-Language Pre-Training for Fast Image-Text Retrieval	May 24, 2022	Cross-Modal RetrievalImage-text Retrieval	—Unverified	0
Deep Supervised Information Bottleneck Hashing for Cross-modal Retrieval based Computer-aided Diagnosis	May 6, 2022	Cross-Modal RetrievalRetrieval	—Unverified	0
Exploring a Fine-Grained Multiscale Method for Cross-Modal Remote Sensing Image Retrieval	Apr 21, 2022	Cross-Modal RetrievalImage Retrieval	CodeCode Available	2
Remote Sensing Cross-Modal Text-Image Retrieval Based on Global and Local Information	Apr 21, 2022	Cross-Modal RetrievalImage Retrieval	CodeCode Available	1
Uncertainty-based Cross-Modal Retrieval with Probabilistic Representations	Apr 20, 2022	Cross-Modal RetrievalImage Retrieval	—Unverified	0
Transformer Decoders with MultiModal Regularization for Cross-Modal Food Retrieval	Apr 20, 2022	Cross-Modal RetrievalRetrieval	CodeCode Available	1
Unsupervised Contrastive Hashing for Cross-Modal Retrieval in Remote Sensing	Apr 19, 2022	BinarizationCross-Modal Retrieval	—Unverified	0
Learning Similarity Preserving Binary Codes for Recommender Systems	Apr 18, 2022	BinarizationCross-Modal Retrieval	—Unverified	0
COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval	Apr 15, 2022	Contrastive LearningCross-Modal Retrieval	—Unverified	0
ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval	Mar 31, 2022	Contrastive LearningCross-Modal Retrieval	—Unverified	0
Learning Program Representations for Food Images and Cooking Recipes	Mar 30, 2022	Cross-Modal RetrievalRetrieval	—Unverified	0
Cross-Media Scientific Research Achievements Retrieval Based on Deep Language Model	Mar 29, 2022	Cross-Modal RetrievalLanguage Modeling	—Unverified	0
On Metric Learning for Audio-Text Cross-Modal Retrieval	Mar 29, 2022	AudioCapsCross-Modal Retrieval	CodeCode Available	1
LILE: Look In-Depth before Looking Elsewhere -- A Dual Attention Network using Transformers for Cross-Modal Information Retrieval in Histopathology Archives	Mar 2, 2022	Cross-Modal Information RetrievalCross-Modal Retrieval	—Unverified	0
Vision-Language Pre-Training with Triple Contrastive Learning	Feb 21, 2022	Contrastive Learningcross-modal alignment	CodeCode Available	2
Efficient Cross-Modal Retrieval via Deep Binary Hashing and Quantization	Feb 15, 2022	Cross-Modal RetrievalDeep Hashing	CodeCode Available	0
IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages	Jan 27, 2022	Cross-Modal RetrievalFew-Shot Learning	CodeCode Available	1
Discriminative Supervised Subspace Learning for Cross-modal Retrieval	Jan 26, 2022	Cross-Modal RetrievalRetrieval	—Unverified	0
Deep Unsupervised Contrastive Hashing for Large-Scale Cross-Modal Text-Image Retrieval in Remote Sensing	Jan 20, 2022	BinarizationCross-Modal Retrieval	—Unverified	0
A Text-Image Pair Is not Enough: Language-Vision Relation Inference with Auxiliary Modality Translation	Jan 16, 2022	Cross-Modal Retrievalimage-classification	—Unverified	0
A Comprehensive Empirical Study of Vision-Language Pre-trained Model for Supervised Cross-Modal Retrieval	Jan 8, 2022	Cross-Modal RetrievalInformation Retrieval	CodeCode Available	1

Show:10 25 50

← PrevPage 6 of 11Next →

All datasets COCO 2014 Flickr30k Recipe1M+RSICD RSITMD ChEBI-20 MSCOCO-1k SoundingEarth CUHK-PEDES Flickr-8k MSCOCO MS-COCO-2014

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MaMMUT (ours)	Image-to-text R@1	70.7	—	Unverified
2	VAST	Text-to-image R@1	68	—	Unverified
3	X2-VLM (large)	Text-to-image R@1	67.7	—	Unverified
4	BEiT-3	Text-to-image R@1	67.2	—	Unverified
5	XFM (base)	Text-to-image R@1	67	—	Unverified
6	X2-VLM (base)	Text-to-image R@1	66.2	—	Unverified
7	PTP-BLIP (14M)	Text-to-image R@1	64.9	—	Unverified
8	OmniVL (14M)	Text-to-image R@1	64.8	—	Unverified
9	VSE-Gradient	Text-to-image R@1	63.6	—	Unverified
10	X-VLM (base)	Text-to-image R@1	63.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	X2-VLM (large)	Image-to-text R@1	98.8	—	Unverified
2	X2-VLM (base)	Image-to-text R@1	98.5	—	Unverified
3	BEiT-3	Image-to-text R@1	98	—	Unverified
4	OmniVL (14M)	Image-to-text R@1	97.3	—	Unverified
5	ERNIE-ViL 2.0	Image-to-text R@1	97.2	—	Unverified
6	Aurora (ours, r=128)	Image-to-text R@1	97.2	—	Unverified
7	X-VLM (base)	Image-to-text R@1	97.1	—	Unverified
8	VSE-Gradient	Image-to-text R@1	97	—	Unverified
9	ALIGN	Image-to-text R@1	95.3	—	Unverified
10	VAST	Text-to-image R@1	91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VLPCook (R1M+)	Image-to-text R@1	74.9	—	Unverified
2	VLPCook	Image-to-text R@1	73.6	—	Unverified
3	T-Food (CLIP)	Image-to-text R@1	72.3	—	Unverified
4	T-Food	Image-to-text R@1	68.2	—	Unverified
5	X-MRS	Image-to-text R@1	64	—	Unverified
6	H-T	Image-to-text R@1	60	—	Unverified
7	SCAN	Image-to-text R@1	54	—	Unverified
8	ACME	Image-to-text R@1	51.8	—	Unverified
9	VLPCook	Image-to-text R@1	45.2	—	Unverified
10	AdaMine	Image-to-text R@1	39.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HarMA (w/ GeoRSCLIP)	Mean Recall	38.95	—	Unverified
2	GeoRSCLIP-FT	Mean Recall	38.87	—	Unverified
3	GLISA	Mean Recall	37.69	—	Unverified
4	RemoteCLIP	Mean Recall	36.35	—	Unverified
5	PE-RSITR (MRS-Adapter)	Mean Recall	31.12	—	Unverified
6	PIR	Mean Recall	24.46	—	Unverified
7	DOVE	Mean Recall	22.72	—	Unverified
8	SWAN	Mean Recall	20.61	—	Unverified
9	GaLR	Mean Recall	18.96	—	Unverified
10	AMFMN	Mean Recall	15.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HarMA (w/ GeoRSCLIP)	Image-to-text R@1	32.74	—	Unverified
2	GeoRSCLIP-FT	Image-to-text R@1	32.3	—	Unverified
3	GLISA	Image-to-text R@1	32.08	—	Unverified
4	RemoteCLIP	Image-to-text R@1	28.76	—	Unverified
5	PE-RSITR (MRS-Adapter)	Image-to-text R@1	23.67	—	Unverified
6	PIR	Image-to-text R@1	18.14	—	Unverified
7	DOVE	Image-to-text R@1	16.81	—	Unverified
8	GaLR	Image-to-text R@1	14.82	—	Unverified
9	SWAN	Image-to-text R@1	13.35	—	Unverified
10	AMFMN	Image-to-text R@1	10.63	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CLASS (ORMA)	Hits@1	67.4	—	Unverified
2	ORMA	Hits@1	66.5	—	Unverified
3	Song et al.	Hits@1	56.5	—	Unverified
4	CLASS (AMAN)	Hits@1	51.1	—	Unverified
5	DSOKR	Hits@1	51	—	Unverified
6	AMAN	Hits@1	49.4	—	Unverified
7	All-Ensemble	Hits@1	34.4	—	Unverified
8	MLP1	Hits@1	22.4	—	Unverified
9	GCN2	Hits@1	22.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Image-to-text R@1	81.9	—	Unverified
2	Dual-path CNN	Image-to-text R@1	41.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ResNet-18	Median Rank	565	—	Unverified
2	GeoCLAP	Median Rank	159	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dual Path	Text-to-image Medr	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Image-to-text R@1	56.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3SHNet	Image-to-text R@1	85.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Text-to-image R@1	43	—	Unverified