Cross-Modal Retrieval

Cross-Modal Retrieval (CMR) is a task of retrieving items across different modalities, such as image, text, video, and audio. The core challenge of CMR is the heterogeneity gap, which arises because data from different modalities have distinct representations, making direct comparison difficult. To address this, most CMR methods focus on learning a shared latent embedding space. In this space, concepts from different modalities are projected, allowing their similarity to be measured using a distance metric.

Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–450 of 522 papers

Title	Date	Tasks	Status
MusicTM-Dataset for Joint Representation Learning among Sheet Music, Lyrics, and Musical Audio	Dec 1, 2020	Cross-Modal RetrievalInformation Retrieval	—Unverified
Deep Cross-modal Hashing via Margin-dynamic-softmax Loss	Nov 6, 2020	Cross-Modal RetrievalRetrieval	—Unverified
Ink Marker Segmentation in Histopathology Images Using Deep Learning	Oct 29, 2020	Cross-Modal RetrievalDeep Learning	—Unverified
DIME: An Online Tool for the Visual Comparison of Cross-Modal Retrieval Models	Oct 19, 2020	Cross-Modal RetrievalRetrieval	CodeCode Available
New Ideas and Trends in Deep Multimodal Content Understanding: A Review	Oct 16, 2020	Cross-Modal RetrievalDeep Learning	—Unverified
Learning Visual-Semantic Embeddings for Reporting Abnormal Findings on Chest X-rays	Oct 6, 2020	ClusteringCross-Modal Retrieval	—Unverified
Cross-modal Center Loss	Aug 8, 2020	Cross-Modal RetrievalRetrieval	—Unverified
Leveraging Acoustic Images for Effective Self-Supervised Audio Representation Learning	Aug 1, 2020	Cross-Modal RetrievalRepresentation Learning	CodeCode Available
Unsupervised Deep Cross-modality Spectral Hashing	Aug 1, 2020	Cross-Modal RetrievalRetrieval	—Unverified
Preserving Semantic Neighborhoods for Robust Cross-modal Retrieval	Jul 16, 2020	ArticlesCross-Modal Retrieval	—Unverified
Multi-view Orthonormalized Partial Least Squares: Regularizations and Deep Extensions	Jul 9, 2020	Cross-Modal RetrievalMULTI-VIEW LEARNING	—Unverified
Self-supervised Modal and View Invariant Feature Learning	May 28, 2020	Cross-Modal RetrievalRetrieval	—Unverified
Retrieving and Highlighting Action with Spatiotemporal Reference	May 19, 2020	Action RecognitionCross-Modal Retrieval	—Unverified
Cross-View Image Retrieval -- Ground to Aerial Image Retrieval through Deep Learning	May 2, 2020	Cross-Modal RetrievalImage Retrieval	—Unverified
MEDIAPI-SKEL - A 2D-Skeleton Video Database of French Sign Language With Aligned French Subtitles	May 1, 2020	Cross-Modal RetrievalRetrieval	—Unverified
MCEN: Bridging Cross-Modal Gap between Cooking Recipes and Dish Images with Latent Variable Model	Apr 2, 2020	Cross-Modal RetrievalRetrieval	—Unverified
Task-adaptive Asymmetric Deep Cross-modal Hashing	Apr 1, 2020	Cross-Modal RetrievalRetrieval	—Unverified
Progressive Domain-Independent Feature Decomposition Network for Zero-Shot Sketch-Based Image Retrieval	Mar 22, 2020	Cross-Modal RetrievalImage Retrieval	—Unverified
Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images and Recipes with Semantic Consistency and Attention Mechanism	Mar 9, 2020	Cross-Modal RetrievalRetrieval	—Unverified
Deep Multimodal Image-Text Embeddings for Automatic Cross-Media Retrieval	Feb 23, 2020	Cross-Modal RetrievalRetrieval	—Unverified
Fine-Grained Instance-Level Sketch-Based Video Retrieval	Feb 21, 2020	Cross-Modal RetrievalImage Retrieval	—Unverified
Deep Robust Multilevel Semantic Cross-Modal Hashing	Feb 7, 2020	Cross-Modal RetrievalRetrieval	—Unverified
A Novel Incremental Cross-Modal Hashing Approach	Feb 3, 2020	Cross-Modal RetrievalRetrieval	—Unverified
Asymmetric Correlation Quantization Hashing for Cross-modal Retrieval	Jan 14, 2020	Cross-Modal RetrievalQuantization	—Unverified
Dividing and Conquering Cross-Modal Recipe Retrieval: from Nearest Neighbours Baselines to SoTA	Nov 28, 2019	Cross-Modal RetrievalRetrieval	—Unverified
A Proposal-based Approach for Activity Image-to-Video Retrieval	Nov 24, 2019	Cross-Modal RetrievalRetrieval	—Unverified
Aligning Multilingual Word Embeddings for Cross-Modal Retrieval Task	Oct 8, 2019	Cross-Modal RetrievalImage to text	CodeCode Available
Deep Joint-Semantics Reconstructing Hashing for Large-Scale Unsupervised Cross-Modal Retrieval	Oct 1, 2019	Cross-Modal RetrievalRetrieval	CodeCode Available
Language-Agnostic Visual-Semantic Embeddings	Oct 1, 2019	Cross-Modal RetrievalRetrieval	CodeCode Available
Deep Latent Space Learning for Cross-modal Mapping of Audio and Visual Signals	Sep 18, 2019	Cross-Modal RetrievalRetrieval	—Unverified
Joint Wasserstein Autoencoders for Aligning Multimodal Embeddings	Sep 14, 2019	Cross-Modal RetrievalRetrieval	—Unverified
CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval	Sep 12, 2019	Cross-Modal RetrievalImage Retrieval	CodeCode Available
Do Cross Modal Systems Leverage Semantic Relationships?	Sep 3, 2019	Cross-Modal RetrievalRetrieval	—Unverified
Artpedia	Sep 1, 2019	Cross-Modal RetrievalRetrieval	—Unverified
Learning Joint Embedding for Cross-Modal Retrieval	Aug 21, 2019	Cross-Modal RetrievalRetrieval	—Unverified
Harmonized Multimodal Learning with Gaussian Process Latent Variable Models	Aug 14, 2019	Cross-Modal RetrievalRetrieval	CodeCode Available
Deep Triplet Neural Networks with Cluster-CCA for Audio-Visual Cross-modal Retrieval	Aug 10, 2019	Cross-Modal RetrievalInformation Retrieval	CodeCode Available
Fine-Grained Action Retrieval Through Multiple Parts-of-Speech Embeddings	Aug 9, 2019	Cross-Modal RetrievalPOS	—Unverified
Learning Visual Actions Using Multiple Verb-Only Labels	Jul 25, 2019	Action RecognitionCross-Modal Retrieval	CodeCode Available
Multisensory Learning Framework for Robot Drumming	Jul 23, 2019	Cross-Modal RetrievalRetrieval	—Unverified
Learning Soft-Attention Models for Tempo-invariant Audio-Sheet Music Retrieval	Jun 26, 2019	Cross-Modal RetrievalRetrieval	—Unverified
Stacked Capsule Autoencoders	Jun 17, 2019	Cross-Modal RetrievalObject	CodeCode Available
Unified Visual-Semantic Embeddings: Bridging Vision and Language With Structured Meaning Representations	Jun 1, 2019	Contrastive LearningCross-Modal Retrieval	CodeCode Available
Deep Supervised Cross-Modal Retrieval	Jun 1, 2019	Cross-Modal RetrievalRetrieval	CodeCode Available
Cross-Modality Personalization for Retrieval	Jun 1, 2019	Cross-Modal RetrievalGaze Prediction	—Unverified
Label Prediction Framework for Semi-Supervised Cross-Modal Retrieval	May 27, 2019	Cross-Modal RetrievalPrediction	—Unverified
Improved Text-Image Matching by Mitigating Visual Semantic Hubs	May 22, 2019	Cross-Modal RetrievalRetrieval	—Unverified
Deep Unified Multimodal Embeddings for Understanding both Content and Users in Social Media Networks	May 17, 2019	Cross-Modal RetrievalRetrieval	—Unverified
Ranking-based Deep Cross-modal Hashing	May 11, 2019	Cross-Modal RetrievalRetrieval	—Unverified
Semantic Adversarial Network for Zero-Shot Sketch-Based Image Retrieval	May 7, 2019	Cross-Modal RetrievalImage Retrieval	—Unverified

Show:10 25 50

← PrevPage 9 of 11Next →

All datasets COCO 2014 Flickr30k Recipe1M+RSICD RSITMD ChEBI-20 MSCOCO-1k SoundingEarth CUHK-PEDES Flickr-8k MSCOCO MS-COCO-2014

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MaMMUT (ours)	Image-to-text R@1	70.7	—	Unverified
2	VAST	Text-to-image R@1	68	—	Unverified
3	X2-VLM (large)	Text-to-image R@1	67.7	—	Unverified
4	BEiT-3	Text-to-image R@1	67.2	—	Unverified
5	XFM (base)	Text-to-image R@1	67	—	Unverified
6	X2-VLM (base)	Text-to-image R@1	66.2	—	Unverified
7	PTP-BLIP (14M)	Text-to-image R@1	64.9	—	Unverified
8	OmniVL (14M)	Text-to-image R@1	64.8	—	Unverified
9	VSE-Gradient	Text-to-image R@1	63.6	—	Unverified
10	X-VLM (base)	Text-to-image R@1	63.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	X2-VLM (large)	Image-to-text R@1	98.8	—	Unverified
2	X2-VLM (base)	Image-to-text R@1	98.5	—	Unverified
3	BEiT-3	Image-to-text R@1	98	—	Unverified
4	OmniVL (14M)	Image-to-text R@1	97.3	—	Unverified
5	Aurora (ours, r=128)	Image-to-text R@1	97.2	—	Unverified
6	ERNIE-ViL 2.0	Image-to-text R@1	97.2	—	Unverified
7	X-VLM (base)	Image-to-text R@1	97.1	—	Unverified
8	VSE-Gradient	Image-to-text R@1	97	—	Unverified
9	ALIGN	Image-to-text R@1	95.3	—	Unverified
10	VAST	Text-to-image R@1	91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VLPCook (R1M+)	Image-to-text R@1	74.9	—	Unverified
2	VLPCook	Image-to-text R@1	73.6	—	Unverified
3	T-Food (CLIP)	Image-to-text R@1	72.3	—	Unverified
4	T-Food	Image-to-text R@1	68.2	—	Unverified
5	X-MRS	Image-to-text R@1	64	—	Unverified
6	H-T	Image-to-text R@1	60	—	Unverified
7	SCAN	Image-to-text R@1	54	—	Unverified
8	ACME	Image-to-text R@1	51.8	—	Unverified
9	VLPCook	Image-to-text R@1	45.2	—	Unverified
10	AdaMine	Image-to-text R@1	39.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HarMA (w/ GeoRSCLIP)	Mean Recall	38.95	—	Unverified
2	GeoRSCLIP-FT	Mean Recall	38.87	—	Unverified
3	GLISA	Mean Recall	37.69	—	Unverified
4	RemoteCLIP	Mean Recall	36.35	—	Unverified
5	PE-RSITR (MRS-Adapter)	Mean Recall	31.12	—	Unverified
6	PIR	Mean Recall	24.46	—	Unverified
7	DOVE	Mean Recall	22.72	—	Unverified
8	SWAN	Mean Recall	20.61	—	Unverified
9	GaLR	Mean Recall	18.96	—	Unverified
10	AMFMN	Mean Recall	15.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HarMA (w/ GeoRSCLIP)	Image-to-text R@1	32.74	—	Unverified
2	GeoRSCLIP-FT	Image-to-text R@1	32.3	—	Unverified
3	GLISA	Image-to-text R@1	32.08	—	Unverified
4	RemoteCLIP	Image-to-text R@1	28.76	—	Unverified
5	PE-RSITR (MRS-Adapter)	Image-to-text R@1	23.67	—	Unverified
6	PIR	Image-to-text R@1	18.14	—	Unverified
7	DOVE	Image-to-text R@1	16.81	—	Unverified
8	GaLR	Image-to-text R@1	14.82	—	Unverified
9	SWAN	Image-to-text R@1	13.35	—	Unverified
10	AMFMN	Image-to-text R@1	10.63	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CLASS (ORMA)	Hits@1	67.4	—	Unverified
2	ORMA	Hits@1	66.5	—	Unverified
3	Song et al.	Hits@1	56.5	—	Unverified
4	CLASS (AMAN)	Hits@1	51.1	—	Unverified
5	DSOKR	Hits@1	51	—	Unverified
6	AMAN	Hits@1	49.4	—	Unverified
7	All-Ensemble	Hits@1	34.4	—	Unverified
8	MLP1	Hits@1	22.4	—	Unverified
9	GCN2	Hits@1	22.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Image-to-text R@1	81.9	—	Unverified
2	Dual-path CNN	Image-to-text R@1	41.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ResNet-18	Median Rank	565	—	Unverified
2	GeoCLAP	Median Rank	159	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dual Path	Text-to-image Medr	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Image-to-text R@1	56.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3SHNet	Image-to-text R@1	85.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Text-to-image R@1	43	—	Unverified