Cross-Modal Retrieval

Cross-Modal Retrieval (CMR) is a task of retrieving items across different modalities, such as image, text, video, and audio. The core challenge of CMR is the heterogeneity gap, which arises because data from different modalities have distinct representations, making direct comparison difficult. To address this, most CMR methods focus on learning a shared latent embedding space. In this space, concepts from different modalities are projected, allowing their similarity to be measured using a distance metric.

Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–425 of 522 papers

Title	Date	Tasks	Status	Hype
MEDIAPI-SKEL - A 2D-Skeleton Video Database of French Sign Language With Aligned French Subtitles	May 1, 2020	Cross-Modal RetrievalRetrieval	—Unverified	0
Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks	Apr 13, 2020	Cross-Modal RetrievalImage Captioning	CodeCode Available	2
MCEN: Bridging Cross-Modal Gap between Cooking Recipes and Dish Images with Latent Variable Model	Apr 2, 2020	Cross-Modal RetrievalRetrieval	—Unverified	0
Task-adaptive Asymmetric Deep Cross-modal Hashing	Apr 1, 2020	Cross-Modal RetrievalRetrieval	—Unverified	0
Graph Structured Network for Image-Text Matching	Apr 1, 2020	AttributeCross-Modal Retrieval	CodeCode Available	1
Progressive Domain-Independent Feature Decomposition Network for Zero-Shot Sketch-Based Image Retrieval	Mar 22, 2020	Cross-Modal RetrievalImage Retrieval	—Unverified	0
Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images and Recipes with Semantic Consistency and Attention Mechanism	Mar 9, 2020	Cross-Modal RetrievalRetrieval	—Unverified	0
IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval	Mar 8, 2020	Cross-Modal RetrievalImage-text Retrieval	CodeCode Available	1
Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning	Mar 1, 2020	Cross-Modal RetrievalRetrieval	CodeCode Available	1
Sketch Less for More: On-the-Fly Fine-Grained Sketch Based Image Retrieval	Feb 24, 2020	Cross-Modal RetrievalImage Retrieval	CodeCode Available	1
Sketchformer: Transformer-based Representation for Sketched Structure	Feb 24, 2020	Cross-Modal RetrievalDictionary Learning	CodeCode Available	1
Deep Multimodal Image-Text Embeddings for Automatic Cross-Media Retrieval	Feb 23, 2020	Cross-Modal RetrievalRetrieval	—Unverified	0
Fine-Grained Instance-Level Sketch-Based Video Retrieval	Feb 21, 2020	Cross-Modal RetrievalImage Retrieval	—Unverified	0
Deep Robust Multilevel Semantic Cross-Modal Hashing	Feb 7, 2020	Cross-Modal RetrievalRetrieval	—Unverified	0
A Novel Incremental Cross-Modal Hashing Approach	Feb 3, 2020	Cross-Modal RetrievalRetrieval	—Unverified	0
Asymmetric Correlation Quantization Hashing for Cross-modal Retrieval	Jan 14, 2020	Cross-Modal RetrievalQuantization	—Unverified	0
Dividing and Conquering Cross-Modal Recipe Retrieval: from Nearest Neighbours Baselines to SoTA	Nov 28, 2019	Cross-Modal RetrievalRetrieval	—Unverified	0
A Proposal-based Approach for Activity Image-to-Video Retrieval	Nov 24, 2019	Cross-Modal RetrievalRetrieval	—Unverified	0
Target-Oriented Deformation of Visual-Semantic Embedding Space	Oct 15, 2019	Cross-Modal RetrievalDiversity	CodeCode Available	1
Aligning Multilingual Word Embeddings for Cross-Modal Retrieval Task	Oct 8, 2019	Cross-Modal RetrievalImage to text	CodeCode Available	0
Deep Joint-Semantics Reconstructing Hashing for Large-Scale Unsupervised Cross-Modal Retrieval	Oct 1, 2019	Cross-Modal RetrievalRetrieval	CodeCode Available	0
Language-Agnostic Visual-Semantic Embeddings	Oct 1, 2019	Cross-Modal RetrievalRetrieval	CodeCode Available	0
Deep Latent Space Learning for Cross-modal Mapping of Audio and Visual Signals	Sep 18, 2019	Cross-Modal RetrievalRetrieval	—Unverified	0
Joint Wasserstein Autoencoders for Aligning Multimodal Embeddings	Sep 14, 2019	Cross-Modal RetrievalRetrieval	—Unverified	0
CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval	Sep 12, 2019	Cross-Modal RetrievalImage Retrieval	CodeCode Available	0

Show:10 25 50

← PrevPage 17 of 21Next →

All datasets COCO 2014 Flickr30k Recipe1M+RSICD RSITMD ChEBI-20 MSCOCO-1k SoundingEarth CUHK-PEDES Flickr-8k MSCOCO MS-COCO-2014

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MaMMUT (ours)	Image-to-text R@1	70.7	—	Unverified
2	VAST	Text-to-image R@1	68	—	Unverified
3	X2-VLM (large)	Text-to-image R@1	67.7	—	Unverified
4	BEiT-3	Text-to-image R@1	67.2	—	Unverified
5	XFM (base)	Text-to-image R@1	67	—	Unverified
6	X2-VLM (base)	Text-to-image R@1	66.2	—	Unverified
7	PTP-BLIP (14M)	Text-to-image R@1	64.9	—	Unverified
8	OmniVL (14M)	Text-to-image R@1	64.8	—	Unverified
9	VSE-Gradient	Text-to-image R@1	63.6	—	Unverified
10	X-VLM (base)	Text-to-image R@1	63.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	X2-VLM (large)	Image-to-text R@1	98.8	—	Unverified
2	X2-VLM (base)	Image-to-text R@1	98.5	—	Unverified
3	BEiT-3	Image-to-text R@1	98	—	Unverified
4	OmniVL (14M)	Image-to-text R@1	97.3	—	Unverified
5	Aurora (ours, r=128)	Image-to-text R@1	97.2	—	Unverified
6	ERNIE-ViL 2.0	Image-to-text R@1	97.2	—	Unverified
7	X-VLM (base)	Image-to-text R@1	97.1	—	Unverified
8	VSE-Gradient	Image-to-text R@1	97	—	Unverified
9	ALIGN	Image-to-text R@1	95.3	—	Unverified
10	VAST	Text-to-image R@1	91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VLPCook (R1M+)	Image-to-text R@1	74.9	—	Unverified
2	VLPCook	Image-to-text R@1	73.6	—	Unverified
3	T-Food (CLIP)	Image-to-text R@1	72.3	—	Unverified
4	T-Food	Image-to-text R@1	68.2	—	Unverified
5	X-MRS	Image-to-text R@1	64	—	Unverified
6	H-T	Image-to-text R@1	60	—	Unverified
7	SCAN	Image-to-text R@1	54	—	Unverified
8	ACME	Image-to-text R@1	51.8	—	Unverified
9	VLPCook	Image-to-text R@1	45.2	—	Unverified
10	AdaMine	Image-to-text R@1	39.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HarMA (w/ GeoRSCLIP)	Mean Recall	38.95	—	Unverified
2	GeoRSCLIP-FT	Mean Recall	38.87	—	Unverified
3	GLISA	Mean Recall	37.69	—	Unverified
4	RemoteCLIP	Mean Recall	36.35	—	Unverified
5	PE-RSITR (MRS-Adapter)	Mean Recall	31.12	—	Unverified
6	PIR	Mean Recall	24.46	—	Unverified
7	DOVE	Mean Recall	22.72	—	Unverified
8	SWAN	Mean Recall	20.61	—	Unverified
9	GaLR	Mean Recall	18.96	—	Unverified
10	AMFMN	Mean Recall	15.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HarMA (w/ GeoRSCLIP)	Image-to-text R@1	32.74	—	Unverified
2	GeoRSCLIP-FT	Image-to-text R@1	32.3	—	Unverified
3	GLISA	Image-to-text R@1	32.08	—	Unverified
4	RemoteCLIP	Image-to-text R@1	28.76	—	Unverified
5	PE-RSITR (MRS-Adapter)	Image-to-text R@1	23.67	—	Unverified
6	PIR	Image-to-text R@1	18.14	—	Unverified
7	DOVE	Image-to-text R@1	16.81	—	Unverified
8	GaLR	Image-to-text R@1	14.82	—	Unverified
9	SWAN	Image-to-text R@1	13.35	—	Unverified
10	AMFMN	Image-to-text R@1	10.63	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CLASS (ORMA)	Hits@1	67.4	—	Unverified
2	ORMA	Hits@1	66.5	—	Unverified
3	Song et al.	Hits@1	56.5	—	Unverified
4	CLASS (AMAN)	Hits@1	51.1	—	Unverified
5	DSOKR	Hits@1	51	—	Unverified
6	AMAN	Hits@1	49.4	—	Unverified
7	All-Ensemble	Hits@1	34.4	—	Unverified
8	MLP1	Hits@1	22.4	—	Unverified
9	GCN2	Hits@1	22.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Image-to-text R@1	81.9	—	Unverified
2	Dual-path CNN	Image-to-text R@1	41.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ResNet-18	Median Rank	565	—	Unverified
2	GeoCLAP	Median Rank	159	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dual Path	Text-to-image Medr	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Image-to-text R@1	56.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3SHNet	Image-to-text R@1	85.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Text-to-image R@1	43	—	Unverified