Cross-Modal Retrieval

Cross-Modal Retrieval (CMR) is a task of retrieving items across different modalities, such as image, text, video, and audio. The core challenge of CMR is the heterogeneity gap, which arises because data from different modalities have distinct representations, making direct comparison difficult. To address this, most CMR methods focus on learning a shared latent embedding space. In this space, concepts from different modalities are projected, allowing their similarity to be measured using a distance metric.

Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 522 papers

Title	Date	Tasks	Status
Two-Stage Triplet Loss Training with Curriculum Augmentation for Audio-Visual Retrieval	Oct 20, 2023	Cross-Modal RetrievalRetrieval	—Unverified
Uncertainty-based Cross-Modal Retrieval with Probabilistic Representations	Apr 20, 2022	Cross-Modal RetrievalImage Retrieval	—Unverified
Understanding Retrieval-Augmented Task Adaptation for Vision-Language Models	May 2, 2024	Cross-Modal RetrievalRetrieval	—Unverified
Uni3DL: Unified Model for 3D and Language Understanding	Dec 5, 2023	Cross-Modal RetrievalInstance Segmentation	—Unverified
Unsupervised Multi-modal Hashing for Cross-modal retrieval	Mar 26, 2019	Content-Based Image RetrievalCross-Modal Retrieval	—Unverified
Unsupervised Contrastive Hashing for Cross-Modal Retrieval in Remote Sensing	Apr 19, 2022	BinarizationCross-Modal Retrieval	—Unverified
Unsupervised Deep Cross-modality Spectral Hashing	Aug 1, 2020	Cross-Modal RetrievalRetrieval	—Unverified
Unsupervised Generative Adversarial Cross-modal Hashing	Dec 1, 2017	Cross-Modal RetrievalGenerative Adversarial Network	—Unverified
Using Multiple Instance Learning to Build Multimodal Representations	Dec 11, 2022	Contrastive LearningCross-Modal Retrieval	—Unverified
Variational Autoencoder with CCA for Audio-Visual Cross-Modal Retrieval	Dec 5, 2021	Cross-Modal RetrievalInformation Retrieval	—Unverified
Video and Audio are Images: A Cross-Modal Mixer for Original Data on Video-Audio Retrieval	Aug 26, 2023	Cross-Modal RetrievalDecoder	—Unverified
ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval	Mar 31, 2022	Contrastive LearningCross-Modal Retrieval	—Unverified
VLDeformer: Vision-Language Decomposed Transformer for Fast Cross-Modal Retrieval	Oct 20, 2021	Contrastive LearningCross-Modal Retrieval	—Unverified
Wasserstein Coupled Graph Learning for Cross-Modal Retrieval	Jan 1, 2021	Cross-Modal RetrievalGraph Embedding	—Unverified
Weakly Supervised Dense Video Captioning via Jointly Usage of Knowledge Distillation and Cross-modal Matching	May 18, 2021	Caption GenerationCross-Modal Retrieval	—Unverified
Webly Supervised Joint Embedding for Cross-Modal Image-Text Retrieval	Aug 23, 2018	Cross-Modal RetrievalImage-text Retrieval	—Unverified
Webly Supervised Joint Embedding for Cross-Modal lmage-Text Retrieval	Oct 1, 2018	Cross-Modal RetrievalImage-text Retrieval	—Unverified
What If We Recaption Billions of Web Images with LLaMA-3?	Jun 12, 2024	Cross-Modal RetrievalImage Generation	—Unverified
WikiMuTe: A web-sourced dataset of semantic descriptions for music audio	Dec 14, 2023	ArticlesCross-Modal Retrieval	—Unverified
Wills Aligner: Multi-Subject Collaborative Brain Visual Decoding	Apr 20, 2024	Cross-Modal RetrievalDiversity	—Unverified
X2CT-CLIP: Enable Multi-Abnormality Detection in Computed Tomography from Chest Radiography via Tri-Modal Contrastive Learning	Mar 4, 2025	Anomaly DetectionComputed Tomography (CT)	—Unverified
X-TRA: Improving Chest X-ray Tasks with Cross-Modal Retrieval Augmentation	Feb 22, 2023	Cross-Modal RetrievalRetrieval	—Unverified
Y^2Seq2Seq: Cross-Modal Representation Learning for 3D Shape and Text by Joint Reconstruction and Prediction of View and Word Sequences	Nov 7, 2018	3D Shape RepresentationCross-Modal Retrieval	—Unverified
Zero-Shot Interactive Text-to-Image Retrieval via Diffusion-Augmented Representations	Jan 26, 2025	Cross-Modal RetrievalImage Retrieval	—Unverified
More Than Just Attention: Improving Cross-Modal Attentions with Contrastive Constraints for Image-Text Matching	May 20, 2021	Contrastive LearningCross-Modal Retrieval	—Unverified
Towards Cross-modal Retrieval in Chinese Cultural Heritage Documents: Dataset and Solution	May 16, 2025	Cross-Modal RetrievalImage to text	—Unverified
3D Shape Knowledge Graph for Cross-domain 3D Shape Retrieval	Oct 27, 2022	3D Shape RetrievalCross-Modal Retrieval	—Unverified
ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling	Jun 25, 2024	Cross-Modal RetrievalNatural Language Queries	—Unverified
A Comprehensive Survey on Cross-modal Retrieval	Jul 21, 2016	Cross-Modal RetrievalRepresentation Learning	—Unverified
Adaptive Asymmetric Label-guided Hashing for Multimedia Search	Jul 26, 2022	Cross-Modal RetrievalQuantization	—Unverified
Adaptive Inner Speech-Text Alignment for LLM-based Speech Translation	Mar 13, 2025	Cross-Modal RetrievalTranslation	—Unverified
Semi-Supervised Cross-Modal Retrieval with Label Prediction	Dec 4, 2018	Cross-Modal RetrievalPrediction	—Unverified
Adversarial Attack on Deep Cross-Modal Hamming Retrieval	Jan 1, 2021	Adversarial AttackCross-Modal Retrieval	—Unverified
Adversarial Cross-Modal Retrieval via Learning and Transferring Single-Modal Similarities	Apr 17, 2019	Cross-Modal RetrievalRetrieval	—Unverified
Aggregating Image and Text Quantized Correlated Components	Jun 1, 2016	8kCross-Modal Retrieval	—Unverified
All in One Framework for Multimodal Re-identification in the Wild	May 8, 2024	AllCross-Modal Retrieval	—Unverified
Alternating Co-Quantization for Cross-Modal Hashing	Dec 1, 2015	Cross-Modal RetrievalDimensionality Reduction	—Unverified
An analysis of vision-language models for fabric retrieval	Jul 7, 2025	AttributeCross-Modal Retrieval	—Unverified
Anchor-aware Deep Metric Learning for Audio-visual Retrieval	Apr 21, 2024	Cross-Modal RetrievalMetric Learning	—Unverified
A Novel Incremental Cross-Modal Hashing Approach	Feb 3, 2020	Cross-Modal RetrievalRetrieval	—Unverified
A Proposal-based Approach for Activity Image-to-Video Retrieval	Nov 24, 2019	Cross-Modal RetrievalRetrieval	—Unverified
A Recipe for Improving Remote Sensing VLM Zero Shot Generalization	Mar 10, 2025	Cross-Modal RetrievalZero-Shot Cross-Modal Retrieval	—Unverified
Artpedia	Sep 1, 2019	Cross-Modal RetrievalRetrieval	—Unverified
A scoping review on multimodal deep learning in biomedical images and texts	Jul 14, 2023	Cross-Modal RetrievalDecision Making	—Unverified
Astrea: A MOE-based Visual Understanding Model with Progressive Alignment	Mar 12, 2025	Contrastive LearningCross-Modal Retrieval	—Unverified
Asymmetric Correlation Quantization Hashing for Cross-modal Retrieval	Jan 14, 2020	Cross-Modal RetrievalQuantization	—Unverified
A Text-Image Pair Is not Enough: Language-Vision Relation Inference with Auxiliary Modality Translation	Jan 16, 2022	Cross-Modal Retrievalimage-classification	—Unverified
Attention-aware Deep Adversarial Hashing for Cross-Modal Retrieval	Sep 1, 2018	Cross-Modal RetrievalRetrieval	—Unverified
Attribute-Guided Network for Cross-Modal Zero-Shot Hashing	Feb 6, 2018	AttributeCross-Modal Retrieval	—Unverified
A Unified Optimal Transport Framework for Cross-Modal Retrieval with Noisy Labels	Mar 20, 2024	Cross-Modal RetrievalRetrieval	—Unverified

Show:10 25 50

← PrevPage 6 of 11Next →

All datasets COCO 2014 Flickr30k Recipe1M+RSICD RSITMD ChEBI-20 MSCOCO-1k SoundingEarth CUHK-PEDES Flickr-8k MSCOCO MS-COCO-2014

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MaMMUT (ours)	Image-to-text R@1	70.7	—	Unverified
2	VAST	Text-to-image R@1	68	—	Unverified
3	X2-VLM (large)	Text-to-image R@1	67.7	—	Unverified
4	BEiT-3	Text-to-image R@1	67.2	—	Unverified
5	XFM (base)	Text-to-image R@1	67	—	Unverified
6	X2-VLM (base)	Text-to-image R@1	66.2	—	Unverified
7	PTP-BLIP (14M)	Text-to-image R@1	64.9	—	Unverified
8	OmniVL (14M)	Text-to-image R@1	64.8	—	Unverified
9	VSE-Gradient	Text-to-image R@1	63.6	—	Unverified
10	X-VLM (base)	Text-to-image R@1	63.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	X2-VLM (large)	Image-to-text R@1	98.8	—	Unverified
2	X2-VLM (base)	Image-to-text R@1	98.5	—	Unverified
3	BEiT-3	Image-to-text R@1	98	—	Unverified
4	OmniVL (14M)	Image-to-text R@1	97.3	—	Unverified
5	Aurora (ours, r=128)	Image-to-text R@1	97.2	—	Unverified
6	ERNIE-ViL 2.0	Image-to-text R@1	97.2	—	Unverified
7	X-VLM (base)	Image-to-text R@1	97.1	—	Unverified
8	VSE-Gradient	Image-to-text R@1	97	—	Unverified
9	ALIGN	Image-to-text R@1	95.3	—	Unverified
10	VAST	Text-to-image R@1	91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VLPCook (R1M+)	Image-to-text R@1	74.9	—	Unverified
2	VLPCook	Image-to-text R@1	73.6	—	Unverified
3	T-Food (CLIP)	Image-to-text R@1	72.3	—	Unverified
4	T-Food	Image-to-text R@1	68.2	—	Unverified
5	X-MRS	Image-to-text R@1	64	—	Unverified
6	H-T	Image-to-text R@1	60	—	Unverified
7	SCAN	Image-to-text R@1	54	—	Unverified
8	ACME	Image-to-text R@1	51.8	—	Unverified
9	VLPCook	Image-to-text R@1	45.2	—	Unverified
10	AdaMine	Image-to-text R@1	39.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HarMA (w/ GeoRSCLIP)	Mean Recall	38.95	—	Unverified
2	GeoRSCLIP-FT	Mean Recall	38.87	—	Unverified
3	GLISA	Mean Recall	37.69	—	Unverified
4	RemoteCLIP	Mean Recall	36.35	—	Unverified
5	PE-RSITR (MRS-Adapter)	Mean Recall	31.12	—	Unverified
6	PIR	Mean Recall	24.46	—	Unverified
7	DOVE	Mean Recall	22.72	—	Unverified
8	SWAN	Mean Recall	20.61	—	Unverified
9	GaLR	Mean Recall	18.96	—	Unverified
10	AMFMN	Mean Recall	15.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HarMA (w/ GeoRSCLIP)	Image-to-text R@1	32.74	—	Unverified
2	GeoRSCLIP-FT	Image-to-text R@1	32.3	—	Unverified
3	GLISA	Image-to-text R@1	32.08	—	Unverified
4	RemoteCLIP	Image-to-text R@1	28.76	—	Unverified
5	PE-RSITR (MRS-Adapter)	Image-to-text R@1	23.67	—	Unverified
6	PIR	Image-to-text R@1	18.14	—	Unverified
7	DOVE	Image-to-text R@1	16.81	—	Unverified
8	GaLR	Image-to-text R@1	14.82	—	Unverified
9	SWAN	Image-to-text R@1	13.35	—	Unverified
10	AMFMN	Image-to-text R@1	10.63	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CLASS (ORMA)	Hits@1	67.4	—	Unverified
2	ORMA	Hits@1	66.5	—	Unverified
3	Song et al.	Hits@1	56.5	—	Unverified
4	CLASS (AMAN)	Hits@1	51.1	—	Unverified
5	DSOKR	Hits@1	51	—	Unverified
6	AMAN	Hits@1	49.4	—	Unverified
7	All-Ensemble	Hits@1	34.4	—	Unverified
8	MLP1	Hits@1	22.4	—	Unverified
9	GCN2	Hits@1	22.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Image-to-text R@1	81.9	—	Unverified
2	Dual-path CNN	Image-to-text R@1	41.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ResNet-18	Median Rank	565	—	Unverified
2	GeoCLAP	Median Rank	159	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dual Path	Text-to-image Medr	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Image-to-text R@1	56.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3SHNet	Image-to-text R@1	85.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Text-to-image R@1	43	—	Unverified