Cross-Modal Retrieval

Cross-Modal Retrieval (CMR) is a task of retrieving items across different modalities, such as image, text, video, and audio. The core challenge of CMR is the heterogeneity gap, which arises because data from different modalities have distinct representations, making direct comparison difficult. To address this, most CMR methods focus on learning a shared latent embedding space. In this space, concepts from different modalities are projected, allowing their similarity to be measured using a distance metric.

Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 522 papers

Title	Date	Tasks	Status	Hype	Score
FedCMR: Federated Cross-Modal Retrieval	Jul 1, 2021	Cross-Modal RetrievalFederated Learning	CodeCode Available	1	5
Sketch Less for More: On-the-Fly Fine-Grained Sketch-Based Image Retrieval	Jun 1, 2020	Cross-Modal RetrievalImage Retrieval	CodeCode Available	1	5
Quilt-1M: One Million Image-Text Pairs for Histopathology	Jun 20, 2023	Automatic Speech RecognitionCross-Modal Retrieval	CodeCode Available	1	5
Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image Retrieval	Oct 19, 2022	Cross-Modal RetrievalImage Retrieval	CodeCode Available	1	5
BirdSAT: Cross-View Contrastive Masked Autoencoders for Bird Species Classification and Mapping	Oct 29, 2023	Contrastive LearningCross-Modal Retrieval	CodeCode Available	1	5
Learning Modal-Invariant and Temporal-Memory for Video-based Visible-Infrared Person Re-Identification	Aug 4, 2022	Cross-Modal RetrievalPerson Re-Identification	CodeCode Available	1	5
Adaptive label-aware graph convolutional networks for cross-modal retrieval	Aug 6, 2021	Cross-Modal RetrievalRepresentation Learning	CodeCode Available	1	5
Learning to Rematch Mismatched Pairs for Robust Cross-Modal Retrieval	Mar 8, 2024	Cross-Modal RetrievalCross-modal retrieval with noisy correspondence	CodeCode Available	1	5
CaLa: Complementary Association Learning for Augmenting Composed Image Retrieval	May 29, 2024	Cross-Modal RetrievalImage Retrieval	CodeCode Available	1	5
Learning to Evaluate Performance of Multi-modal Semantic Localization	Sep 14, 2022	Cross-Modal RetrievalReferring Expression	CodeCode Available	1	5
Ask&Confirm: Active Detail Enriching for Cross-Modal Retrieval with Partial Query	Mar 2, 2021	Cross-Modal RetrievalImage Retrieval	CodeCode Available	1	5
A Differentiable Semantic Metric Approximation in Probabilistic Embedding for Cross-Modal Retrieval	Dec 6, 2022	Cross-Modal RetrievalImage-text matching	CodeCode Available	1	5
Cross-modal Retrieval for Knowledge-based Visual Question Answering	Jan 11, 2024	Cross-Modal RetrievalQuestion Answering	CodeCode Available	1	5
Cross-Modal Retrieval for Motion and Text via DopTriple Loss	May 7, 2023	Cross-Modal RetrievalRetrieval	CodeCode Available	1	5
M3-Jepa: Multimodal Alignment via Multi-directional MoE based on the JEPA framework	Sep 9, 2024	Computational EfficiencyCross-Modal Retrieval	CodeCode Available	1	5
MAKE: Multi-Aspect Knowledge-Enhanced Vision-Language Pretraining for Zero-shot Dermatological Assessment	May 14, 2025	Clinical KnowledgeContrastive Learning	CodeCode Available	1	5
Enhancing Recipe Retrieval with Foundation Models: A Data Augmentation Perspective	Dec 8, 2023	Cross-Modal RetrievalData Augmentation	CodeCode Available	1	5
Parameter-Efficient Transfer Learning for Remote Sensing Image-Text Retrieval	Aug 24, 2023	Cross-Modal RetrievalImage-text matching	CodeCode Available	1	5
Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative Latent Attention	Nov 21, 2022	Cross-Modal RetrievalLanguage Modeling	CodeCode Available	1	5
Cross-Modal Retrieval with Partially Mismatched Pairs	Feb 22, 2023	Contrastive LearningCross-Modal Retrieval	CodeCode Available	1	5
On Metric Learning for Audio-Text Cross-Modal Retrieval	Mar 29, 2022	AudioCapsCross-Modal Retrieval	CodeCode Available	1	5
mCLIP: Multilingual CLIP via Cross-lingual Transfer	Jul 10, 2023	Contrastive LearningCross-Lingual Transfer	CodeCode Available	1	5
Normalized Contrastive Learning for Text-Video Retrieval	Nov 30, 2022	Contrastive LearningCross-Modal Retrieval	CodeCode Available	1	5
Cross-modal transformers for infrared and visible image fusion	Jun 26, 2023	Cross-Modal RetrievalDepth Estimation	CodeCode Available	1	5
More Photos are All You Need: Semi-Supervised Learning for Fine-Grained Sketch Based Image Retrieval	Mar 25, 2021	AllCross-Modal Retrieval	CodeCode Available	1	5
Order-Embeddings of Images and Language	Nov 19, 2015	Cross-Modal RetrievalImage Captioning	CodeCode Available	1	5
Plug-and-Play Regulators for Image-Text Matching	Mar 23, 2023	Cross-Modal RetrievalImage Retrieval	CodeCode Available	1	5
Disentangling and Generating Modalities for Recommendation in Missing Modality Scenarios	Apr 23, 2025	Cross-Modal RetrievalRecommendation Systems	CodeCode Available	1	5
Nearest Neighbor Normalization Improves Multimodal Retrieval	Oct 31, 2024	Cross-Modal RetrievalImage Captioning	CodeCode Available	1	5
Multimodal Metric Learning for Tag-based Music Retrieval	Oct 30, 2020	Cross-Modal RetrievalMetric Learning	CodeCode Available	1	5
An Empirical Study of CLIP for Text-based Person Search	Aug 19, 2023	Cross-Modal RetrievalData Augmentation	CodeCode Available	1	5
Neural Methods for Point-wise Dependency Estimation	Jun 9, 2020	Cross-Modal RetrievalRepresentation Learning	CodeCode Available	1	5
Dense and Aligned Captions (DAC) Promote Compositional Reasoning in VL Models	May 31, 2023	Cross-Modal RetrievalQuestion Answering	CodeCode Available	1	5
MusCaps: Generating Captions for Music Audio	Apr 24, 2021	Audio captioningClassification	CodeCode Available	1	5
An Empirical Study of Training End-to-End Vision-and-Language Transformers	Nov 3, 2021	Cross-Modal RetrievalDecoder	CodeCode Available	1	5
Deep Evidential Learning with Noisy Correspondence for Cross-Modal Retrieval	Oct 10, 2022	Cross-Modal RetrievalCross-modal retrieval with noisy correspondence	CodeCode Available	1	5
Dual adversarial graph neural networks for multi-label cross-modal retrieval	May 18, 2021	Cross-Modal RetrievalRetrieval	CodeCode Available	1	5
Domain-Smoothing Network for Zero-Shot Sketch-Based Image Retrieval	Jun 22, 2021	Cross-Modal RetrievalDiversity	CodeCode Available	1	5
CLIP-KD: An Empirical Study of CLIP Model Distillation	Jul 24, 2023	Contrastive LearningCross-Modal Retrieval	CodeCode Available	1	5
PaLI-3 Vision Language Models: Smaller, Faster, Stronger	Oct 13, 2023	Chart Question AnsweringCross-Modal Retrieval	CodeCode Available	1	5
COBRA: Contrastive Bi-Modal Representation Algorithm	May 7, 2020	Cross-Modal RetrievalImage Captioning	CodeCode Available	1	5
Dynamic Modality Interaction Modeling for Image-Text Retrieval	Jul 11, 2021	cross-modal alignmentCross-Modal Retrieval	CodeCode Available	1	5
Distinctive Image Captioning: Leveraging Ground Truth Captions in CLIP Guided Reinforcement Learning	Feb 21, 2024	Cross-Modal RetrievalImage Captioning	CodeCode Available	1	5
A Comprehensive Empirical Study of Vision-Language Pre-trained Model for Supervised Cross-Modal Retrieval	Jan 8, 2022	Cross-Modal RetrievalInformation Retrieval	CodeCode Available	1	5
IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval	Mar 8, 2020	Cross-Modal RetrievalImage-text Retrieval	CodeCode Available	1	5
Emotion Embedding Spaces for Matching Music to Stories	Nov 26, 2021	Cross-Modal RetrievalMetric Learning	CodeCode Available	1	5
Multimodal Foundation Models For Echocardiogram Interpretation	Aug 29, 2023	Cross-Modal RetrievalDiagnostic	CodeCode Available	1	5
Noisy Correspondence Learning with Meta Similarity Correction	Apr 13, 2023	Binary ClassificationCross-Modal Retrieval	CodeCode Available	1	5
Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval	Jun 11, 2019	Cross-Modal RetrievalMultiple Instance Learning	CodeCode Available	1	5
Remote Sensing Cross-Modal Text-Image Retrieval Based on Global and Local Information	Apr 21, 2022	Cross-Modal RetrievalImage Retrieval	CodeCode Available	1	5

Show:10 25 50

← PrevPage 3 of 11Next →

All datasets COCO 2014 Flickr30k Recipe1M+RSICD RSITMD ChEBI-20 MSCOCO-1k SoundingEarth CUHK-PEDES Flickr-8k MSCOCO MS-COCO-2014

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MaMMUT (ours)	Image-to-text R@1	70.7	—	Unverified
2	VAST	Text-to-image R@1	68	—	Unverified
3	X2-VLM (large)	Text-to-image R@1	67.7	—	Unverified
4	BEiT-3	Text-to-image R@1	67.2	—	Unverified
5	XFM (base)	Text-to-image R@1	67	—	Unverified
6	X2-VLM (base)	Text-to-image R@1	66.2	—	Unverified
7	PTP-BLIP (14M)	Text-to-image R@1	64.9	—	Unverified
8	OmniVL (14M)	Text-to-image R@1	64.8	—	Unverified
9	VSE-Gradient	Text-to-image R@1	63.6	—	Unverified
10	X-VLM (base)	Text-to-image R@1	63.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	X2-VLM (large)	Image-to-text R@1	98.8	—	Unverified
2	X2-VLM (base)	Image-to-text R@1	98.5	—	Unverified
3	BEiT-3	Image-to-text R@1	98	—	Unverified
4	OmniVL (14M)	Image-to-text R@1	97.3	—	Unverified
5	Aurora (ours, r=128)	Image-to-text R@1	97.2	—	Unverified
6	ERNIE-ViL 2.0	Image-to-text R@1	97.2	—	Unverified
7	X-VLM (base)	Image-to-text R@1	97.1	—	Unverified
8	VSE-Gradient	Image-to-text R@1	97	—	Unverified
9	ALIGN	Image-to-text R@1	95.3	—	Unverified
10	VAST	Text-to-image R@1	91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VLPCook (R1M+)	Image-to-text R@1	74.9	—	Unverified
2	VLPCook	Image-to-text R@1	73.6	—	Unverified
3	T-Food (CLIP)	Image-to-text R@1	72.3	—	Unverified
4	T-Food	Image-to-text R@1	68.2	—	Unverified
5	X-MRS	Image-to-text R@1	64	—	Unverified
6	H-T	Image-to-text R@1	60	—	Unverified
7	SCAN	Image-to-text R@1	54	—	Unverified
8	ACME	Image-to-text R@1	51.8	—	Unverified
9	VLPCook	Image-to-text R@1	45.2	—	Unverified
10	AdaMine	Image-to-text R@1	39.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HarMA (w/ GeoRSCLIP)	Mean Recall	38.95	—	Unverified
2	GeoRSCLIP-FT	Mean Recall	38.87	—	Unverified
3	GLISA	Mean Recall	37.69	—	Unverified
4	RemoteCLIP	Mean Recall	36.35	—	Unverified
5	PE-RSITR (MRS-Adapter)	Mean Recall	31.12	—	Unverified
6	PIR	Mean Recall	24.46	—	Unverified
7	DOVE	Mean Recall	22.72	—	Unverified
8	SWAN	Mean Recall	20.61	—	Unverified
9	GaLR	Mean Recall	18.96	—	Unverified
10	AMFMN	Mean Recall	15.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HarMA (w/ GeoRSCLIP)	Image-to-text R@1	32.74	—	Unverified
2	GeoRSCLIP-FT	Image-to-text R@1	32.3	—	Unverified
3	GLISA	Image-to-text R@1	32.08	—	Unverified
4	RemoteCLIP	Image-to-text R@1	28.76	—	Unverified
5	PE-RSITR (MRS-Adapter)	Image-to-text R@1	23.67	—	Unverified
6	PIR	Image-to-text R@1	18.14	—	Unverified
7	DOVE	Image-to-text R@1	16.81	—	Unverified
8	GaLR	Image-to-text R@1	14.82	—	Unverified
9	SWAN	Image-to-text R@1	13.35	—	Unverified
10	AMFMN	Image-to-text R@1	10.63	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CLASS (ORMA)	Hits@1	67.4	—	Unverified
2	ORMA	Hits@1	66.5	—	Unverified
3	Song et al.	Hits@1	56.5	—	Unverified
4	CLASS (AMAN)	Hits@1	51.1	—	Unverified
5	DSOKR	Hits@1	51	—	Unverified
6	AMAN	Hits@1	49.4	—	Unverified
7	All-Ensemble	Hits@1	34.4	—	Unverified
8	MLP1	Hits@1	22.4	—	Unverified
9	GCN2	Hits@1	22.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Image-to-text R@1	81.9	—	Unverified
2	Dual-path CNN	Image-to-text R@1	41.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ResNet-18	Median Rank	565	—	Unverified
2	GeoCLAP	Median Rank	159	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dual Path	Text-to-image Medr	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Image-to-text R@1	56.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3SHNet	Image-to-text R@1	85.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Text-to-image R@1	43	—	Unverified