Cross-Modal Retrieval

Cross-Modal Retrieval (CMR) is a task of retrieving items across different modalities, such as image, text, video, and audio. The core challenge of CMR is the heterogeneity gap, which arises because data from different modalities have distinct representations, making direct comparison difficult. To address this, most CMR methods focus on learning a shared latent embedding space. In this space, concepts from different modalities are projected, allowing their similarity to be measured using a distance metric.

Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 522 papers

Title	Date	Tasks	Status	Hype
Remote Sensing Cross-Modal Text-Image Retrieval Based on Global and Local Information	Apr 21, 2022	Cross-Modal RetrievalImage Retrieval	CodeCode Available	1
Transformer Decoders with MultiModal Regularization for Cross-Modal Food Retrieval	Apr 20, 2022	Cross-Modal RetrievalRetrieval	CodeCode Available	1
On Metric Learning for Audio-Text Cross-Modal Retrieval	Mar 29, 2022	AudioCapsCross-Modal Retrieval	CodeCode Available	1
IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages	Jan 27, 2022	Cross-Modal RetrievalFew-Shot Learning	CodeCode Available	1
A Comprehensive Empirical Study of Vision-Language Pre-trained Model for Supervised Cross-Modal Retrieval	Jan 8, 2022	Cross-Modal RetrievalInformation Retrieval	CodeCode Available	1
Cross Modal Retrieval with Querybank Normalisation	Dec 23, 2021	Cross-Modal RetrievalMetric Learning	CodeCode Available	1
Fusion and Orthogonal Projection for Improved Face-Voice Association	Dec 20, 2021	Cross-Modal RetrievalTriplet	CodeCode Available	1
Learning with Noisy Correspondence for Cross-modal Matching	Dec 1, 2021	Cross-Modal RetrievalCross-modal retrieval with noisy correspondence	CodeCode Available	1
Emotion Embedding Spaces for Matching Music to Stories	Nov 26, 2021	Cross-Modal RetrievalMetric Learning	CodeCode Available	1
Florence: A New Foundation Model for Computer Vision	Nov 22, 2021	Action ClassificationAction Recognition	CodeCode Available	1
Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts	Nov 16, 2021	Cross-Modal RetrievalImage Captioning	CodeCode Available	1
The Curious Layperson: Fine-Grained Image Recognition without Expert Labels	Nov 5, 2021	Cross-Modal RetrievalFine-Grained Image Recognition	CodeCode Available	1
An Empirical Study of Training End-to-End Vision-and-Language Transformers	Nov 3, 2021	Cross-Modal RetrievalDecoder	CodeCode Available	1
Text2Mol: Cross-Modal Molecule Retrieval with Natural Language Queries	Nov 1, 2021	Cross-Modal RetrievalNatural Language Queries	CodeCode Available	1
BiC-Net: Learning Efficient Spatio-Temporal Relation for Text-Video Retrieval	Oct 29, 2021	Cross-Modal RetrievalRelation	CodeCode Available	1
Wav2CLIP: Learning Robust Audio Representations From CLIP	Oct 21, 2021	Cross-Modal RetrievalImage Generation	CodeCode Available	1
Text-Based Person Search with Limited Data	Oct 20, 2021	BenchmarkingContrastive Learning	CodeCode Available	1
X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics	Aug 18, 2021	Cross-Modal RetrievalDecoder	CodeCode Available	1
Adaptive label-aware graph convolutional networks for cross-modal retrieval	Aug 6, 2021	Cross-Modal RetrievalRepresentation Learning	CodeCode Available	1
Self-supervised Audiovisual Representation Learning for Remote Sensing Data	Aug 2, 2021	Cross-Modal RetrievalRepresentation Learning	CodeCode Available	1
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation	Jul 16, 2021	Cross-Modal RetrievalGrounded language learning	CodeCode Available	1
Dynamic Modality Interaction Modeling for Image-Text Retrieval	Jul 11, 2021	cross-modal alignmentCross-Modal Retrieval	CodeCode Available	1
FedCMR: Federated Cross-Modal Retrieval	Jul 1, 2021	Cross-Modal RetrievalFederated Learning	CodeCode Available	1
Domain-Smoothing Network for Zero-Shot Sketch-Based Image Retrieval	Jun 22, 2021	Cross-Modal RetrievalDiversity	CodeCode Available	1
Learning Cross-Modal Retrieval With Noisy Labels	Jun 19, 2021	Cross-Modal RetrievalRetrieval	CodeCode Available	1
Learning Relation Alignment for Calibrated Cross-modal Retrieval	May 28, 2021	Cross-Modal RetrievalImage-text Retrieval	CodeCode Available	1
Dual adversarial graph neural networks for multi-label cross-modal retrieval	May 18, 2021	Cross-Modal RetrievalRetrieval	CodeCode Available	1
MusCaps: Generating Captions for Music Audio	Apr 24, 2021	Audio captioningClassification	CodeCode Available	1
More Photos are All You Need: Semi-Supervised Learning for Fine-Grained Sketch Based Image Retrieval	Mar 25, 2021	AllCross-Modal Retrieval	CodeCode Available	1
Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers and Self-supervised Learning	Mar 24, 2021	Cross-Modal RetrievalRetrieval	CodeCode Available	1
Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for Improved Cross-Modal Retrieval	Mar 22, 2021	Cross-Modal RetrievalRetrieval	CodeCode Available	1
Ask&Confirm: Active Detail Enriching for Cross-Modal Retrieval with Partial Query	Mar 2, 2021	Cross-Modal RetrievalImage Retrieval	CodeCode Available	1
ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision	Feb 5, 2021	Cross-Modal RetrievalImage Retrieval	CodeCode Available	1
Probabilistic Embeddings for Cross-Modal Retrieval	Jan 13, 2021	Cross-Modal RetrievalRetrieval	CodeCode Available	1
Similarity Reasoning and Filtration for Image-Text Matching	Jan 5, 2021	Cross-Modal RetrievalImage Retrieval	CodeCode Available	1
VisualSparta: An Embarrassingly Simple Approach to Large-scale Text-to-Image Search with Weighted Bag-of-words	Jan 1, 2021	CPUCross-Modal Information Retrieval	CodeCode Available	1
StacMR: Scene-Text Aware Cross-Modal Retrieval	Dec 8, 2020	Cross-Modal RetrievalInformation Retrieval	CodeCode Available	1
CodeCMR: Cross-Modal Retrieval For Function-Level Binary Source Code Matching	Dec 1, 2020	Computer SecurityCross-Modal Retrieval	CodeCode Available	1
COOT: Cooperative Hierarchical Transformer for Video-Text Representation Learning	Nov 1, 2020	Cross-Modal RetrievalRepresentation Learning	CodeCode Available	1
Multimodal Metric Learning for Tag-based Music Retrieval	Oct 30, 2020	Cross-Modal RetrievalMetric Learning	CodeCode Available	1
Learning Dual Semantic Relations with Graph Attention for Image-Text Matching	Oct 22, 2020	Cross-Modal RetrievalGraph Attention	CodeCode Available	1
Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using Transformer Encoders	Aug 12, 2020	Cross-Modal Information RetrievalCross-Modal Retrieval	CodeCode Available	1
Rescaling Egocentric Vision	Jun 23, 2020	Action AnticipationAction Detection	CodeCode Available	1
Neural Methods for Point-wise Dependency Estimation	Jun 9, 2020	Cross-Modal RetrievalRepresentation Learning	CodeCode Available	1
Sketch Less for More: On-the-Fly Fine-Grained Sketch-Based Image Retrieval	Jun 1, 2020	Cross-Modal RetrievalImage Retrieval	CodeCode Available	1
FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal Retrieval	May 20, 2020	Cross-Modal RetrievalRetrieval	CodeCode Available	1
COBRA: Contrastive Bi-Modal Representation Algorithm	May 7, 2020	Cross-Modal RetrievalImage Captioning	CodeCode Available	1
Graph Structured Network for Image-Text Matching	Apr 1, 2020	AttributeCross-Modal Retrieval	CodeCode Available	1
IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval	Mar 8, 2020	Cross-Modal RetrievalImage-text Retrieval	CodeCode Available	1
Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning	Mar 1, 2020	Cross-Modal RetrievalRetrieval	CodeCode Available	1

Show:10 25 50

← PrevPage 3 of 11Next →

All datasets COCO 2014 Flickr30k Recipe1M+RSICD RSITMD ChEBI-20 MSCOCO-1k SoundingEarth CUHK-PEDES Flickr-8k MSCOCO MS-COCO-2014

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MaMMUT (ours)	Image-to-text R@1	70.7	—	Unverified
2	VAST	Text-to-image R@1	68	—	Unverified
3	X2-VLM (large)	Text-to-image R@1	67.7	—	Unverified
4	BEiT-3	Text-to-image R@1	67.2	—	Unverified
5	XFM (base)	Text-to-image R@1	67	—	Unverified
6	X2-VLM (base)	Text-to-image R@1	66.2	—	Unverified
7	PTP-BLIP (14M)	Text-to-image R@1	64.9	—	Unverified
8	OmniVL (14M)	Text-to-image R@1	64.8	—	Unverified
9	VSE-Gradient	Text-to-image R@1	63.6	—	Unverified
10	X-VLM (base)	Text-to-image R@1	63.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	X2-VLM (large)	Image-to-text R@1	98.8	—	Unverified
2	X2-VLM (base)	Image-to-text R@1	98.5	—	Unverified
3	BEiT-3	Image-to-text R@1	98	—	Unverified
4	OmniVL (14M)	Image-to-text R@1	97.3	—	Unverified
5	Aurora (ours, r=128)	Image-to-text R@1	97.2	—	Unverified
6	ERNIE-ViL 2.0	Image-to-text R@1	97.2	—	Unverified
7	X-VLM (base)	Image-to-text R@1	97.1	—	Unverified
8	VSE-Gradient	Image-to-text R@1	97	—	Unverified
9	ALIGN	Image-to-text R@1	95.3	—	Unverified
10	VAST	Text-to-image R@1	91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VLPCook (R1M+)	Image-to-text R@1	74.9	—	Unverified
2	VLPCook	Image-to-text R@1	73.6	—	Unverified
3	T-Food (CLIP)	Image-to-text R@1	72.3	—	Unverified
4	T-Food	Image-to-text R@1	68.2	—	Unverified
5	X-MRS	Image-to-text R@1	64	—	Unverified
6	H-T	Image-to-text R@1	60	—	Unverified
7	SCAN	Image-to-text R@1	54	—	Unverified
8	ACME	Image-to-text R@1	51.8	—	Unverified
9	VLPCook	Image-to-text R@1	45.2	—	Unverified
10	AdaMine	Image-to-text R@1	39.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HarMA (w/ GeoRSCLIP)	Mean Recall	38.95	—	Unverified
2	GeoRSCLIP-FT	Mean Recall	38.87	—	Unverified
3	GLISA	Mean Recall	37.69	—	Unverified
4	RemoteCLIP	Mean Recall	36.35	—	Unverified
5	PE-RSITR (MRS-Adapter)	Mean Recall	31.12	—	Unverified
6	PIR	Mean Recall	24.46	—	Unverified
7	DOVE	Mean Recall	22.72	—	Unverified
8	SWAN	Mean Recall	20.61	—	Unverified
9	GaLR	Mean Recall	18.96	—	Unverified
10	AMFMN	Mean Recall	15.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HarMA (w/ GeoRSCLIP)	Image-to-text R@1	32.74	—	Unverified
2	GeoRSCLIP-FT	Image-to-text R@1	32.3	—	Unverified
3	GLISA	Image-to-text R@1	32.08	—	Unverified
4	RemoteCLIP	Image-to-text R@1	28.76	—	Unverified
5	PE-RSITR (MRS-Adapter)	Image-to-text R@1	23.67	—	Unverified
6	PIR	Image-to-text R@1	18.14	—	Unverified
7	DOVE	Image-to-text R@1	16.81	—	Unverified
8	GaLR	Image-to-text R@1	14.82	—	Unverified
9	SWAN	Image-to-text R@1	13.35	—	Unverified
10	AMFMN	Image-to-text R@1	10.63	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CLASS (ORMA)	Hits@1	67.4	—	Unverified
2	ORMA	Hits@1	66.5	—	Unverified
3	Song et al.	Hits@1	56.5	—	Unverified
4	CLASS (AMAN)	Hits@1	51.1	—	Unverified
5	DSOKR	Hits@1	51	—	Unverified
6	AMAN	Hits@1	49.4	—	Unverified
7	All-Ensemble	Hits@1	34.4	—	Unverified
8	MLP1	Hits@1	22.4	—	Unverified
9	GCN2	Hits@1	22.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Image-to-text R@1	81.9	—	Unverified
2	Dual-path CNN	Image-to-text R@1	41.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ResNet-18	Median Rank	565	—	Unverified
2	GeoCLAP	Median Rank	159	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dual Path	Text-to-image Medr	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Image-to-text R@1	56.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3SHNet	Image-to-text R@1	85.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Text-to-image R@1	43	—	Unverified