Cross-Modal Retrieval

Cross-Modal Retrieval (CMR) is a task of retrieving items across different modalities, such as image, text, video, and audio. The core challenge of CMR is the heterogeneity gap, which arises because data from different modalities have distinct representations, making direct comparison difficult. To address this, most CMR methods focus on learning a shared latent embedding space. In this space, concepts from different modalities are projected, allowing their similarity to be measured using a distance metric.

Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 522 papers

Title	Date	Tasks	Status	Hype
Rethinking Benchmarks for Cross-modal Image-text Retrieval	Apr 21, 2023	Cross-Modal RetrievalImage-text Retrieval	CodeCode Available	1
Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for Improved Cross-Modal Retrieval	Mar 22, 2021	Cross-Modal RetrievalRetrieval	CodeCode Available	1
Learning Modal-Invariant and Temporal-Memory for Video-based Visible-Infrared Person Re-Identification	Aug 4, 2022	Cross-Modal RetrievalPerson Re-Identification	CodeCode Available	1
Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image Retrieval	Oct 19, 2022	Cross-Modal RetrievalImage Retrieval	CodeCode Available	1
More Photos are All You Need: Semi-Supervised Learning for Fine-Grained Sketch Based Image Retrieval	Mar 25, 2021	AllCross-Modal Retrieval	CodeCode Available	1
IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval	Mar 8, 2020	Cross-Modal RetrievalImage-text Retrieval	CodeCode Available	1
IMPACT: A Large-scale Integrated Multimodal Patent Analysis and Creation Dataset for Design Patents	Dec 10, 2024	Cross-Modal RetrievalImage Classification	CodeCode Available	1
Integrating multi-label contrastive learning with dual adversarial graph neural networks for cross-modal retrieval	Jul 5, 2022	Contrastive LearningCross-Modal Retrieval	CodeCode Available	1
CaLa: Complementary Association Learning for Augmenting Composed Image Retrieval	May 29, 2024	Cross-Modal RetrievalImage Retrieval	CodeCode Available	1
Similarity Reasoning and Filtration for Image-Text Matching	Jan 5, 2021	Cross-Modal RetrievalImage Retrieval	CodeCode Available	1
Graph Structured Network for Image-Text Matching	Apr 1, 2020	AttributeCross-Modal Retrieval	CodeCode Available	1
Fusion and Orthogonal Projection for Improved Face-Voice Association	Dec 20, 2021	Cross-Modal RetrievalTriplet	CodeCode Available	1
Cross-modal Retrieval for Knowledge-based Visual Question Answering	Jan 11, 2024	Cross-Modal RetrievalQuestion Answering	CodeCode Available	1
Cross-Modal Retrieval for Motion and Text via DopTriple Loss	May 7, 2023	Cross-Modal RetrievalRetrieval	CodeCode Available	1
M3-Jepa: Multimodal Alignment via Multi-directional MoE based on the JEPA framework	Sep 9, 2024	Computational EfficiencyCross-Modal Retrieval	CodeCode Available	1
Stacked Cross Attention for Image-Text Matching	Mar 21, 2018	Cross-Modal RetrievalImage Retrieval	CodeCode Available	1
Enhancing Recipe Retrieval with Foundation Models: A Data Augmentation Perspective	Dec 8, 2023	Cross-Modal RetrievalData Augmentation	CodeCode Available	1
Vision and Structured-Language Pretraining for Cross-Modal Food Retrieval	Dec 8, 2022	Cross-Modal RetrievalFood Recognition	CodeCode Available	1
IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages	Jan 27, 2022	Cross-Modal RetrievalFew-Shot Learning	CodeCode Available	1
Cross-Modal Retrieval with Partially Mismatched Pairs	Feb 22, 2023	Contrastive LearningCross-Modal Retrieval	CodeCode Available	1
Cross Modal Retrieval with Querybank Normalisation	Dec 23, 2021	Cross-Modal RetrievalMetric Learning	CodeCode Available	1
Text-Based Person Search with Limited Data	Oct 20, 2021	BenchmarkingContrastive Learning	CodeCode Available	1
Knowledge-enhanced Visual-Language Pretraining for Computational Pathology	Apr 15, 2024	Cross-Modal RetrievalLanguage Modeling	CodeCode Available	1
Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning	Mar 1, 2020	Cross-Modal RetrievalRetrieval	CodeCode Available	1
UGNCL: Uncertainty-Guided Noisy Correspondence Learning for Efficient Cross-Modal Matching	Jul 11, 2024	Cross-Modal RetrievalCross-modal retrieval with noisy correspondence	CodeCode Available	1
UniVSE: Robust Visual Semantic Embeddings via Structured Semantic Representations	Apr 11, 2019	Contrastive LearningCross-Modal Retrieval	CodeCode Available	1
FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion Tasks	Mar 4, 2023	Cross-Modal RetrievalImage Captioning	CodeCode Available	1
An Empirical Study of CLIP for Text-based Person Search	Aug 19, 2023	Cross-Modal RetrievalData Augmentation	CodeCode Available	1
FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal Retrieval	May 20, 2020	Cross-Modal RetrievalRetrieval	CodeCode Available	1
Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using Transformer Encoders	Aug 12, 2020	Cross-Modal Information RetrievalCross-Modal Retrieval	CodeCode Available	1
End-to-end Knowledge Retrieval with Multi-modal Queries	Jun 1, 2023	BenchmarkingCross-Modal Retrieval	CodeCode Available	1
CLIP-KD: An Empirical Study of CLIP Model Distillation	Jul 24, 2023	Contrastive LearningCross-Modal Retrieval	CodeCode Available	1
Dense and Aligned Captions (DAC) Promote Compositional Reasoning in VL Models	May 31, 2023	Cross-Modal RetrievalQuestion Answering	CodeCode Available	1
FedCMR: Federated Cross-Modal Retrieval	Jul 1, 2021	Cross-Modal RetrievalFederated Learning	CodeCode Available	1
An Empirical Study of Training End-to-End Vision-and-Language Transformers	Nov 3, 2021	Cross-Modal RetrievalDecoder	CodeCode Available	1
Deep Evidential Learning with Noisy Correspondence for Cross-Modal Retrieval	Oct 10, 2022	Cross-Modal RetrievalCross-modal retrieval with noisy correspondence	CodeCode Available	1
Fuzzy Multimodal Learning for Trusted Cross-modal Retrieval	Jan 1, 2025	Cross-Modal RetrievalRetrieval	CodeCode Available	1
GAIA: A Global, Multi-modal, Multi-scale Vision-Language Dataset for Remote Sensing Image Analysis	Feb 13, 2025	Cross-Modal RetrievalImage Captioning	CodeCode Available	1
A Comprehensive Empirical Study of Vision-Language Pre-trained Model for Supervised Cross-Modal Retrieval	Jan 8, 2022	Cross-Modal RetrievalInformation Retrieval	CodeCode Available	1
Image-text Retrieval via Preserving Main Semantics of Vision	Apr 20, 2023	Cross-Modal RetrievalImage-text Retrieval	CodeCode Available	1
COBRA: Contrastive Bi-Modal Representation Algorithm	May 7, 2020	Cross-Modal RetrievalImage Captioning	CodeCode Available	1
Improving Cross-Modal Retrieval with Set of Diverse Embeddings	Nov 30, 2022	Cross-Modal RetrievalRetrieval	CodeCode Available	1
Dynamic Modality Interaction Modeling for Image-Text Retrieval	Jul 11, 2021	cross-modal alignmentCross-Modal Retrieval	CodeCode Available	1
Florence: A New Foundation Model for Computer Vision	Nov 22, 2021	Action ClassificationAction Recognition	CodeCode Available	1
CodeCMR: Cross-Modal Retrieval For Function-Level Binary Source Code Matching	Dec 1, 2020	Computer SecurityCross-Modal Retrieval	CodeCode Available	1
Learning Cross-Modal Retrieval With Noisy Labels	Jun 19, 2021	Cross-Modal RetrievalRetrieval	CodeCode Available	1
Learning Relation Alignment for Calibrated Cross-modal Retrieval	May 28, 2021	Cross-Modal RetrievalImage-text Retrieval	CodeCode Available	1
Learning Semantic Relationship Among Instances for Image-Text Matching	Jan 1, 2023	Cross-Modal RetrievalImage Retrieval	CodeCode Available	1
Learning to Rematch Mismatched Pairs for Robust Cross-Modal Retrieval	Mar 8, 2024	Cross-Modal RetrievalCross-modal retrieval with noisy correspondence	CodeCode Available	1
Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts	Nov 16, 2021	Cross-Modal RetrievalImage Captioning	CodeCode Available	1

Show:10 25 50

← PrevPage 3 of 11Next →

All datasets COCO 2014 Flickr30k Recipe1M+RSICD RSITMD ChEBI-20 MSCOCO-1k SoundingEarth CUHK-PEDES Flickr-8k MSCOCO MS-COCO-2014

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MaMMUT (ours)	Image-to-text R@1	70.7	—	Unverified
2	VAST	Text-to-image R@1	68	—	Unverified
3	X2-VLM (large)	Text-to-image R@1	67.7	—	Unverified
4	BEiT-3	Text-to-image R@1	67.2	—	Unverified
5	XFM (base)	Text-to-image R@1	67	—	Unverified
6	X2-VLM (base)	Text-to-image R@1	66.2	—	Unverified
7	PTP-BLIP (14M)	Text-to-image R@1	64.9	—	Unverified
8	OmniVL (14M)	Text-to-image R@1	64.8	—	Unverified
9	VSE-Gradient	Text-to-image R@1	63.6	—	Unverified
10	X-VLM (base)	Text-to-image R@1	63.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	X2-VLM (large)	Image-to-text R@1	98.8	—	Unverified
2	X2-VLM (base)	Image-to-text R@1	98.5	—	Unverified
3	BEiT-3	Image-to-text R@1	98	—	Unverified
4	OmniVL (14M)	Image-to-text R@1	97.3	—	Unverified
5	Aurora (ours, r=128)	Image-to-text R@1	97.2	—	Unverified
6	ERNIE-ViL 2.0	Image-to-text R@1	97.2	—	Unverified
7	X-VLM (base)	Image-to-text R@1	97.1	—	Unverified
8	VSE-Gradient	Image-to-text R@1	97	—	Unverified
9	ALIGN	Image-to-text R@1	95.3	—	Unverified
10	VAST	Text-to-image R@1	91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VLPCook (R1M+)	Image-to-text R@1	74.9	—	Unverified
2	VLPCook	Image-to-text R@1	73.6	—	Unverified
3	T-Food (CLIP)	Image-to-text R@1	72.3	—	Unverified
4	T-Food	Image-to-text R@1	68.2	—	Unverified
5	X-MRS	Image-to-text R@1	64	—	Unverified
6	H-T	Image-to-text R@1	60	—	Unverified
7	SCAN	Image-to-text R@1	54	—	Unverified
8	ACME	Image-to-text R@1	51.8	—	Unverified
9	VLPCook	Image-to-text R@1	45.2	—	Unverified
10	AdaMine	Image-to-text R@1	39.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HarMA (w/ GeoRSCLIP)	Mean Recall	38.95	—	Unverified
2	GeoRSCLIP-FT	Mean Recall	38.87	—	Unverified
3	GLISA	Mean Recall	37.69	—	Unverified
4	RemoteCLIP	Mean Recall	36.35	—	Unverified
5	PE-RSITR (MRS-Adapter)	Mean Recall	31.12	—	Unverified
6	PIR	Mean Recall	24.46	—	Unverified
7	DOVE	Mean Recall	22.72	—	Unverified
8	SWAN	Mean Recall	20.61	—	Unverified
9	GaLR	Mean Recall	18.96	—	Unverified
10	AMFMN	Mean Recall	15.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HarMA (w/ GeoRSCLIP)	Image-to-text R@1	32.74	—	Unverified
2	GeoRSCLIP-FT	Image-to-text R@1	32.3	—	Unverified
3	GLISA	Image-to-text R@1	32.08	—	Unverified
4	RemoteCLIP	Image-to-text R@1	28.76	—	Unverified
5	PE-RSITR (MRS-Adapter)	Image-to-text R@1	23.67	—	Unverified
6	PIR	Image-to-text R@1	18.14	—	Unverified
7	DOVE	Image-to-text R@1	16.81	—	Unverified
8	GaLR	Image-to-text R@1	14.82	—	Unverified
9	SWAN	Image-to-text R@1	13.35	—	Unverified
10	AMFMN	Image-to-text R@1	10.63	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CLASS (ORMA)	Hits@1	67.4	—	Unverified
2	ORMA	Hits@1	66.5	—	Unverified
3	Song et al.	Hits@1	56.5	—	Unverified
4	CLASS (AMAN)	Hits@1	51.1	—	Unverified
5	DSOKR	Hits@1	51	—	Unverified
6	AMAN	Hits@1	49.4	—	Unverified
7	All-Ensemble	Hits@1	34.4	—	Unverified
8	MLP1	Hits@1	22.4	—	Unverified
9	GCN2	Hits@1	22.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Image-to-text R@1	81.9	—	Unverified
2	Dual-path CNN	Image-to-text R@1	41.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ResNet-18	Median Rank	565	—	Unverified
2	GeoCLAP	Median Rank	159	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dual Path	Text-to-image Medr	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Image-to-text R@1	56.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3SHNet	Image-to-text R@1	85.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Text-to-image R@1	43	—	Unverified