Cross-Modal Retrieval

Cross-Modal Retrieval (CMR) is a task of retrieving items across different modalities, such as image, text, video, and audio. The core challenge of CMR is the heterogeneity gap, which arises because data from different modalities have distinct representations, making direct comparison difficult. To address this, most CMR methods focus on learning a shared latent embedding space. In this space, concepts from different modalities are projected, allowing their similarity to be measured using a distance metric.

Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 522 papers

Title	Date	Tasks	Status
Learning Soft-Attention Models for Tempo-invariant Audio-Sheet Music Retrieval	Jun 26, 2019	Cross-Modal RetrievalRetrieval	—Unverified
Learning Sparse Disentangled Representations for Multimodal Exclusion Retrieval	Apr 4, 2025	Cross-Modal RetrievalDisentanglement	—Unverified
Learning Structural Representations for Recipe Generation and Food Retrieval	Oct 4, 2021	Cross-Modal RetrievalImage Captioning	—Unverified
Learning Visual-Semantic Embeddings for Reporting Abnormal Findings on Chest X-rays	Oct 6, 2020	ClusteringCross-Modal Retrieval	—Unverified
New Ideas and Trends in Deep Multimodal Content Understanding: A Review	Oct 16, 2020	Cross-Modal RetrievalDeep Learning	—Unverified
Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation	Dec 27, 2023	Cross-Modal RetrievalCross-modal retrieval with noisy correspondence	—Unverified
Objects that Sound	Dec 18, 2017	Cross-Modal RetrievalOptical Flow Estimation	—Unverified
OMGM: Orchestrate Multiple Granularities and Modalities for Efficient Multimodal Retrieval	May 10, 2025	Cross-Modal RetrievalQuestion Answering	—Unverified
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks	Sep 15, 2022	Action ClassificationAction Recognition	—Unverified
Online Asymmetric Similarity Learning for Cross-Modal Retrieval	Jul 1, 2017	Cross-Modal RetrievalRetrieval	—Unverified
On the Importance of Text Preprocessing for Multimodal Representation Learning and Pathology Report Generation	Feb 26, 2025	Cross-Modal RetrievalHallucination	—Unverified
Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text Retrieval	Jul 29, 2022	Cross-Modal RetrievalData Augmentation	—Unverified
Pairwise Relationship Guided Deep Hashing for Cross-Modal Retrieval	Feb 12, 2017	Cross-Modal RetrievalDeep Hashing	—Unverified
PATFinger: Prompt-Adapted Transferable Fingerprinting against Unauthorized Multimodal Dataset Usage	Apr 15, 2025	Cross-Modal RetrievalRetrieval	—Unverified
Pathology Report Generation and Multimodal Representation Learning for Cutaneous Melanocytic Lesions	Feb 26, 2025	Cross-Modal RetrievalLanguage Modeling	—Unverified
Perfect match: Improved cross-modal embeddings for audio-visual synchronisation	Sep 21, 2018	Binary ClassificationCross-Modal Retrieval	—Unverified
PiTL: Cross-modal Retrieval with Weakly-supervised Vision-language Pre-training via Prompting	Jul 14, 2023	Cross-Modal RetrievalImage to text	—Unverified
Pix2Map: Cross-modal Retrieval for Inferring Street Maps from Images	Jan 10, 2023	Autonomous NavigationCross-Modal Retrieval	—Unverified
Preserving Semantic Neighborhoods for Robust Cross-modal Retrieval	Jul 16, 2020	ArticlesCross-Modal Retrieval	—Unverified
Progressive Domain-Independent Feature Decomposition Network for Zero-Shot Sketch-Based Image Retrieval	Mar 22, 2020	Cross-Modal RetrievalImage Retrieval	—Unverified
Ranking-based Deep Cross-modal Hashing	May 11, 2019	Cross-Modal RetrievalRetrieval	—Unverified
Rebalanced Vision-Language Retrieval Considering Structure-Aware Distillation	Dec 14, 2024	Cross-Modal RetrievalRetrieval	—Unverified
Recipe1M+: A Dataset for Learning Cross-Modal Embeddings for Cooking Recipes and Food Images	Oct 14, 2018	Cross-Modal RetrievalGeneral Classification	—Unverified
Retrieval-based Disentangled Representation Learning with Natural Language Supervision	Dec 15, 2022	Cross-Modal RetrievalDisentanglement	—Unverified
Retrieving and Highlighting Action with Spatiotemporal Reference	May 19, 2020	Action RecognitionCross-Modal Retrieval	—Unverified
Revisiting Cross Modal Retrieval	Jul 19, 2018	Cross-Modal RetrievalRetrieval	—Unverified
Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation	Jul 24, 2024	AvgCross-Modal Retrieval	—Unverified
RREH: Reconstruction Relations Embedded Hashing for Semi-Paired Cross-Modal Retrieval	May 28, 2024	Cross-Modal RetrievalRetrieval	—Unverified
Sample-Specific Debiasing for Better Image-Text Models	Apr 25, 2023	Contrastive LearningCross-Modal Retrieval	—Unverified
SA-Person: Text-Based Person Retrieval with Scene-aware Re-ranking	May 30, 2025	Cross-Modal RetrievalPerson Retrieval	—Unverified
Sat2Sound: A Unified Framework for Zero-Shot Soundscape Mapping	May 19, 2025	Contrastive LearningCross-Modal Retrieval	—Unverified
Scale-Semantic Joint Decoupling Network for Image-text Retrieval in Remote Sensing	Dec 12, 2022	Cross-Modal RetrievalImage-text Retrieval	—Unverified
Second Place Solution of WSDM2023 Toloka Visual Question Answering Challenge	Jul 5, 2024	Cross-Modal RetrievalQuestion Answering	—Unverified
Seeing Speech and Sound: Distinguishing and Locating Audios in Visual Scenes	Mar 24, 2025	Cross-Modal RetrievalDisentanglement	—Unverified
Seeing Speech and Sound: Distinguishing and Locating Audio Sources in Visual Scenes	Jan 1, 2025	Cross-Modal RetrievalDisentanglement	—Unverified
See What You See: Self-supervised Cross-modal Retrieval of Visual Stimuli from Brain Activity	Aug 7, 2022	cross-modal alignmentCross-Modal Retrieval	—Unverified
Self-supervised Modal and View Invariant Feature Learning	May 28, 2020	Cross-Modal RetrievalRetrieval	—Unverified
Self-Supervised Modality-Invariant and Modality-Specific Feature Learning for 3D Objects	Sep 29, 2021	3D Object RecognitionCross-Modal Retrieval	—Unverified
Self-Supervised Visual Representations for Cross-Modal Retrieval	Jan 31, 2019	ArticlesCross-Modal Retrieval	—Unverified
Semantic Adversarial Network for Zero-Shot Sketch-Based Image Retrieval	May 7, 2019	Cross-Modal RetrievalImage Retrieval	—Unverified
Semantic Compositions Enhance Vision-Language Contrastive Learning	Jul 1, 2024	ClassificationContrastive Learning	—Unverified
SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework with MLLMs	Apr 17, 2025	Cross-Modal RetrievalImage Retrieval	—Unverified
Simple to Complex Cross-modal Learning to Rank	Feb 4, 2017	Cross-Modal RetrievalInformation Retrieval	—Unverified
Snap and Diagnose: An Advanced Multimodal Retrieval System for Identifying Plant Diseases in the Wild	Aug 27, 2024	Cross-Modal RetrievalImage Retrieval	—Unverified
Sound Source Localization is All about Cross-Modal Alignment	Sep 19, 2023	Allcross-modal alignment	—Unverified
Start from Video-Music Retrieval: An Inter-Intra Modal Loss for Cross Modal Retrieval	Jul 28, 2024	Contrastive LearningCross-Modal Retrieval	—Unverified
SwAMP: Swapped Assignment of Multi-Modal Pairs for Cross-Modal Retrieval	Nov 10, 2021	Contrastive LearningCross-Modal Retrieval	—Unverified
T3D: Advancing 3D Medical Vision-Language Pre-training by Learning Multi-View Visual Consistency	Dec 3, 2023	Clinical KnowledgeContrastive Learning	—Unverified
Task-adaptive Asymmetric Deep Cross-modal Hashing	Apr 1, 2020	Cross-Modal RetrievalRetrieval	—Unverified
Learning Joint Embedding for Cross-Modal Retrieval	Aug 21, 2019	Cross-Modal RetrievalRetrieval	—Unverified

Show:10 25 50

← PrevPage 8 of 11Next →

All datasets COCO 2014 Flickr30k Recipe1M+RSICD RSITMD ChEBI-20 MSCOCO-1k SoundingEarth CUHK-PEDES Flickr-8k MSCOCO MS-COCO-2014

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MaMMUT (ours)	Image-to-text R@1	70.7	—	Unverified
2	VAST	Text-to-image R@1	68	—	Unverified
3	X2-VLM (large)	Text-to-image R@1	67.7	—	Unverified
4	BEiT-3	Text-to-image R@1	67.2	—	Unverified
5	XFM (base)	Text-to-image R@1	67	—	Unverified
6	X2-VLM (base)	Text-to-image R@1	66.2	—	Unverified
7	PTP-BLIP (14M)	Text-to-image R@1	64.9	—	Unverified
8	OmniVL (14M)	Text-to-image R@1	64.8	—	Unverified
9	VSE-Gradient	Text-to-image R@1	63.6	—	Unverified
10	X-VLM (base)	Text-to-image R@1	63.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	X2-VLM (large)	Image-to-text R@1	98.8	—	Unverified
2	X2-VLM (base)	Image-to-text R@1	98.5	—	Unverified
3	BEiT-3	Image-to-text R@1	98	—	Unverified
4	OmniVL (14M)	Image-to-text R@1	97.3	—	Unverified
5	ERNIE-ViL 2.0	Image-to-text R@1	97.2	—	Unverified
6	Aurora (ours, r=128)	Image-to-text R@1	97.2	—	Unverified
7	X-VLM (base)	Image-to-text R@1	97.1	—	Unverified
8	VSE-Gradient	Image-to-text R@1	97	—	Unverified
9	ALIGN	Image-to-text R@1	95.3	—	Unverified
10	VAST	Text-to-image R@1	91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VLPCook (R1M+)	Image-to-text R@1	74.9	—	Unverified
2	VLPCook	Image-to-text R@1	73.6	—	Unverified
3	T-Food (CLIP)	Image-to-text R@1	72.3	—	Unverified
4	T-Food	Image-to-text R@1	68.2	—	Unverified
5	X-MRS	Image-to-text R@1	64	—	Unverified
6	H-T	Image-to-text R@1	60	—	Unverified
7	SCAN	Image-to-text R@1	54	—	Unverified
8	ACME	Image-to-text R@1	51.8	—	Unverified
9	VLPCook	Image-to-text R@1	45.2	—	Unverified
10	AdaMine	Image-to-text R@1	39.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HarMA (w/ GeoRSCLIP)	Mean Recall	38.95	—	Unverified
2	GeoRSCLIP-FT	Mean Recall	38.87	—	Unverified
3	GLISA	Mean Recall	37.69	—	Unverified
4	RemoteCLIP	Mean Recall	36.35	—	Unverified
5	PE-RSITR (MRS-Adapter)	Mean Recall	31.12	—	Unverified
6	PIR	Mean Recall	24.46	—	Unverified
7	DOVE	Mean Recall	22.72	—	Unverified
8	SWAN	Mean Recall	20.61	—	Unverified
9	GaLR	Mean Recall	18.96	—	Unverified
10	AMFMN	Mean Recall	15.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HarMA (w/ GeoRSCLIP)	Image-to-text R@1	32.74	—	Unverified
2	GeoRSCLIP-FT	Image-to-text R@1	32.3	—	Unverified
3	GLISA	Image-to-text R@1	32.08	—	Unverified
4	RemoteCLIP	Image-to-text R@1	28.76	—	Unverified
5	PE-RSITR (MRS-Adapter)	Image-to-text R@1	23.67	—	Unverified
6	PIR	Image-to-text R@1	18.14	—	Unverified
7	DOVE	Image-to-text R@1	16.81	—	Unverified
8	GaLR	Image-to-text R@1	14.82	—	Unverified
9	SWAN	Image-to-text R@1	13.35	—	Unverified
10	AMFMN	Image-to-text R@1	10.63	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CLASS (ORMA)	Hits@1	67.4	—	Unverified
2	ORMA	Hits@1	66.5	—	Unverified
3	Song et al.	Hits@1	56.5	—	Unverified
4	CLASS (AMAN)	Hits@1	51.1	—	Unverified
5	DSOKR	Hits@1	51	—	Unverified
6	AMAN	Hits@1	49.4	—	Unverified
7	All-Ensemble	Hits@1	34.4	—	Unverified
8	MLP1	Hits@1	22.4	—	Unverified
9	GCN2	Hits@1	22.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Image-to-text R@1	81.9	—	Unverified
2	Dual-path CNN	Image-to-text R@1	41.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ResNet-18	Median Rank	565	—	Unverified
2	GeoCLAP	Median Rank	159	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dual Path	Text-to-image Medr	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Image-to-text R@1	56.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3SHNet	Image-to-text R@1	85.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Text-to-image R@1	43	—	Unverified