Cross-Modal Retrieval

Cross-Modal Retrieval (CMR) is a task of retrieving items across different modalities, such as image, text, video, and audio. The core challenge of CMR is the heterogeneity gap, which arises because data from different modalities have distinct representations, making direct comparison difficult. To address this, most CMR methods focus on learning a shared latent embedding space. In this space, concepts from different modalities are projected, allowing their similarity to be measured using a distance metric.

Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 522 papers

Title	Date	Tasks	Status	Hype
Incorporating Dense Knowledge Alignment into Unified Multimodal Representation Models	Jan 1, 2025	Contrastive LearningCross-Modal Retrieval	—Unverified	0
Towards Identity-Aware Cross-Modal Retrieval: a Dataset and a Baseline	Dec 30, 2024	Cross-Modal RetrievalFace Swapping	CodeCode Available	0
Maybe you are looking for CroQS: Cross-modal Query Suggestion for Text-to-Image Retrieval	Dec 18, 2024	Cross-Modal RetrievalImage Captioning	—Unverified	0
Dynamic Adapter with Semantics Disentangling for Cross-lingual Cross-modal Retrieval	Dec 18, 2024	Cross-Modal RetrievalRetrieval	CodeCode Available	0
Rebalanced Vision-Language Retrieval Considering Structure-Aware Distillation	Dec 14, 2024	Cross-Modal RetrievalRetrieval	—Unverified	0
IMPACT: A Large-scale Integrated Multimodal Patent Analysis and Creation Dataset for Design Patents	Dec 10, 2024	Cross-Modal RetrievalImage Classification	CodeCode Available	1
CLIP-PING: Boosting Lightweight Vision-Language Models with Proximus Intrinsic Neighbors Guidance	Dec 5, 2024	Contrastive Learningcross-modal alignment	—Unverified	0
Explainable and Interpretable Multimodal Large Language Models: A Comprehensive Survey	Dec 3, 2024	Cross-Modal RetrievalNatural Language Understanding	—Unverified	0
Fusing Physics-Driven Strategies and Cross-Modal Adversarial Learning: Toward Multi-Domain Applications	Nov 30, 2024	Cross-Modal Retrieval	—Unverified	0
Multimodal Whole Slide Foundation Model for Pathology	Nov 29, 2024	Cross-Modal Retrievalmodel	CodeCode Available	4
FLEX-CLIP: Feature-Level GEneration Network Enhanced CLIP for X-shot Cross-modal Retrieval	Nov 26, 2024	Cross-Modal RetrievalRetrieval	—Unverified	0
CLIPS: An Enhanced CLIP Framework for Learning with Synthetic Captions	Nov 25, 2024	Cross-Modal Retrieval	—Unverified	0
Improving Factuality of 3D Brain MRI Report Generation with Paired Image-domain Retrieval and Text-domain Augmentation	Nov 23, 2024	Cross-Modal RetrievalImage to text	—Unverified	0
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity	Nov 23, 2024	AttributeCross-Modal Retrieval	—Unverified	0
Everything is a Video: Unifying Modalities through Next-Frame Prediction	Nov 15, 2024	Caption GenerationCross-Modal Retrieval	—Unverified	0
Exploring Optimal Transport-Based Multi-Grained Alignments for Text-Molecule Retrieval	Nov 4, 2024	Contrastive LearningCross-Modal Retrieval	—Unverified	0
MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs	Nov 4, 2024	Cross-Modal RetrievalInformation Retrieval	—Unverified	0
TaxaBind: A Unified Embedding Space for Ecological Applications	Nov 1, 2024	Audio ClassificationCross-Modal Retrieval	CodeCode Available	1
Towards Cross-Modal Text-Molecule Retrieval with Better Modality Alignment	Oct 31, 2024	Contrastive Learningcross-modal alignment	CodeCode Available	0
Nearest Neighbor Normalization Improves Multimodal Retrieval	Oct 31, 2024	Cross-Modal RetrievalImage Captioning	CodeCode Available	1
Multilingual Vision-Language Pre-training for the Remote Sensing Domain	Oct 30, 2024	Cross-Modal Retrievalimage-classification	CodeCode Available	0
Test-time Adaptation for Cross-modal Retrieval with Query Shift	Oct 21, 2024	Cross-Modal RetrievalDiversity	—Unverified	0
Deep Class-guided Hashing for Multi-label Cross-modal Retrieval	Oct 20, 2024	Cross-Modal RetrievalDeep Hashing	CodeCode Available	0
GleanVec: Accelerating vector search with minimalist nonlinear dimensionality reduction	Oct 14, 2024	Cross-Modal RetrievalDimensionality Reduction	—Unverified	0
MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models	Oct 13, 2024	Cross-Modal RetrievalQuestion Answering	—Unverified	0
CSA: Data-efficient Mapping of Unimodal Features to Multimodal Features	Oct 10, 2024	Cross-Modal RetrievalGPU	—Unverified	0
BadCM: Invisible Backdoor Attack Against Cross-Modal Learning	Oct 3, 2024	Backdoor AttackCross-Modal Retrieval	CodeCode Available	1
Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation	Sep 30, 2024	Cross-Modal RetrievalDynamic Time Warping	CodeCode Available	2
Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval	Sep 30, 2024	Cross-Modal RetrievalLarge Language Model	CodeCode Available	0
EyeCLIP: A visual-language foundation model for multi-modal ophthalmic image analysis	Sep 10, 2024	Contrastive LearningCross-Modal Retrieval	CodeCode Available	2
M3-Jepa: Multimodal Alignment via Multi-directional MoE based on the JEPA framework	Sep 9, 2024	Computational EfficiencyCross-Modal Retrieval	CodeCode Available	1
Snap and Diagnose: An Advanced Multimodal Retrieval System for Identifying Plant Diseases in the Wild	Aug 27, 2024	Cross-Modal RetrievalImage Retrieval	—Unverified	0
Limitations in Employing Natural Language Supervision for Sensor-Based Human Activity Recognition -- And Ways to Overcome Them	Aug 21, 2024	Activity RecognitionCross-Modal Retrieval	—Unverified	0
Leveraging Chemistry Foundation Models to Facilitate Structure Focused Retrieval Augmented Generation in Multi-Agent Workflows for Catalyst and Materials Design	Aug 21, 2024	Cross-Modal RetrievalInformation Retrieval	—Unverified	0
Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach	Aug 14, 2024	Cross-Modal RetrievalLanguage Modeling	—Unverified	0
Contrastive masked auto-encoders based self-supervised hashing for 2D image and 3D point cloud cross-modal retrieval	Aug 11, 2024	Contrastive LearningCross-Modal Retrieval	—Unverified	0
Efficient and Versatile Robust Fine-Tuning of Zero-shot Models	Aug 11, 2024	Cross-Modal Retrievalzero-shot-classification	—Unverified	0
Disentangled Noisy Correspondence Learning	Aug 10, 2024	cross-modal alignmentCross-Modal Retrieval	—Unverified	0
Start from Video-Music Retrieval: An Inter-Intra Modal Loss for Cross Modal Retrieval	Jul 28, 2024	Contrastive LearningCross-Modal Retrieval	—Unverified	0
Unified Lexical Representation for Interpretable Visual-Language Alignment	Jul 25, 2024	Cross-Modal RetrievalLanguage Modelling	CodeCode Available	0
DAC: 2D-3D Retrieval with Noisy Labels via Divide-and-Conquer Alignment and Correction	Jul 25, 2024	cross-modal alignmentCross-Modal Retrieval	CodeCode Available	0
Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation	Jul 24, 2024	AvgCross-Modal Retrieval	—Unverified	0
Aligning Sight and Sound: Advanced Sound Source Localization Through Audio-Visual Alignment	Jul 18, 2024	cross-modal alignmentCross-Modal Retrieval	CodeCode Available	1
ModalChorus: Visual Probing and Alignment of Multi-modal Embeddings via Modal Fusion Map	Jul 17, 2024	Cross-Modal RetrievalDimensionality Reduction	CodeCode Available	0
UGNCL: Uncertainty-Guided Noisy Correspondence Learning for Efficient Cross-Modal Matching	Jul 11, 2024	Cross-Modal RetrievalCross-modal retrieval with noisy correspondence	CodeCode Available	1
Second Place Solution of WSDM2023 Toloka Visual Question Answering Challenge	Jul 5, 2024	Cross-Modal RetrievalQuestion Answering	—Unverified	0
Semantic Compositions Enhance Vision-Language Contrastive Learning	Jul 1, 2024	ClassificationContrastive Learning	—Unverified	0
MATE: Meet At The Embedding -- Connecting Images with Long Texts	Jun 26, 2024	Cross-Modal RetrievalDescriptive	—Unverified	0
Improving the Consistency in Cross-Lingual Cross-Modal Retrieval with 1-to-K Contrastive Learning	Jun 26, 2024	Contrastive LearningCross-Modal Retrieval	CodeCode Available	0
ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling	Jun 25, 2024	Cross-Modal RetrievalNatural Language Queries	—Unverified	0

Show:10 25 50

← PrevPage 2 of 11Next →

All datasets COCO 2014 Flickr30k Recipe1M+RSICD RSITMD ChEBI-20 MSCOCO-1k SoundingEarth CUHK-PEDES Flickr-8k MSCOCO MS-COCO-2014

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MaMMUT (ours)	Image-to-text R@1	70.7	—	Unverified
2	VAST	Text-to-image R@1	68	—	Unverified
3	X2-VLM (large)	Text-to-image R@1	67.7	—	Unverified
4	BEiT-3	Text-to-image R@1	67.2	—	Unverified
5	XFM (base)	Text-to-image R@1	67	—	Unverified
6	X2-VLM (base)	Text-to-image R@1	66.2	—	Unverified
7	PTP-BLIP (14M)	Text-to-image R@1	64.9	—	Unverified
8	OmniVL (14M)	Text-to-image R@1	64.8	—	Unverified
9	VSE-Gradient	Text-to-image R@1	63.6	—	Unverified
10	X-VLM (base)	Text-to-image R@1	63.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	X2-VLM (large)	Image-to-text R@1	98.8	—	Unverified
2	X2-VLM (base)	Image-to-text R@1	98.5	—	Unverified
3	BEiT-3	Image-to-text R@1	98	—	Unverified
4	OmniVL (14M)	Image-to-text R@1	97.3	—	Unverified
5	Aurora (ours, r=128)	Image-to-text R@1	97.2	—	Unverified
6	ERNIE-ViL 2.0	Image-to-text R@1	97.2	—	Unverified
7	X-VLM (base)	Image-to-text R@1	97.1	—	Unverified
8	VSE-Gradient	Image-to-text R@1	97	—	Unverified
9	ALIGN	Image-to-text R@1	95.3	—	Unverified
10	VAST	Text-to-image R@1	91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VLPCook (R1M+)	Image-to-text R@1	74.9	—	Unverified
2	VLPCook	Image-to-text R@1	73.6	—	Unverified
3	T-Food (CLIP)	Image-to-text R@1	72.3	—	Unverified
4	T-Food	Image-to-text R@1	68.2	—	Unverified
5	X-MRS	Image-to-text R@1	64	—	Unverified
6	H-T	Image-to-text R@1	60	—	Unverified
7	SCAN	Image-to-text R@1	54	—	Unverified
8	ACME	Image-to-text R@1	51.8	—	Unverified
9	VLPCook	Image-to-text R@1	45.2	—	Unverified
10	AdaMine	Image-to-text R@1	39.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HarMA (w/ GeoRSCLIP)	Mean Recall	38.95	—	Unverified
2	GeoRSCLIP-FT	Mean Recall	38.87	—	Unverified
3	GLISA	Mean Recall	37.69	—	Unverified
4	RemoteCLIP	Mean Recall	36.35	—	Unverified
5	PE-RSITR (MRS-Adapter)	Mean Recall	31.12	—	Unverified
6	PIR	Mean Recall	24.46	—	Unverified
7	DOVE	Mean Recall	22.72	—	Unverified
8	SWAN	Mean Recall	20.61	—	Unverified
9	GaLR	Mean Recall	18.96	—	Unverified
10	AMFMN	Mean Recall	15.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HarMA (w/ GeoRSCLIP)	Image-to-text R@1	32.74	—	Unverified
2	GeoRSCLIP-FT	Image-to-text R@1	32.3	—	Unverified
3	GLISA	Image-to-text R@1	32.08	—	Unverified
4	RemoteCLIP	Image-to-text R@1	28.76	—	Unverified
5	PE-RSITR (MRS-Adapter)	Image-to-text R@1	23.67	—	Unverified
6	PIR	Image-to-text R@1	18.14	—	Unverified
7	DOVE	Image-to-text R@1	16.81	—	Unverified
8	GaLR	Image-to-text R@1	14.82	—	Unverified
9	SWAN	Image-to-text R@1	13.35	—	Unverified
10	AMFMN	Image-to-text R@1	10.63	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CLASS (ORMA)	Hits@1	67.4	—	Unverified
2	ORMA	Hits@1	66.5	—	Unverified
3	Song et al.	Hits@1	56.5	—	Unverified
4	CLASS (AMAN)	Hits@1	51.1	—	Unverified
5	DSOKR	Hits@1	51	—	Unverified
6	AMAN	Hits@1	49.4	—	Unverified
7	All-Ensemble	Hits@1	34.4	—	Unverified
8	MLP1	Hits@1	22.4	—	Unverified
9	GCN2	Hits@1	22.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Image-to-text R@1	81.9	—	Unverified
2	Dual-path CNN	Image-to-text R@1	41.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ResNet-18	Median Rank	565	—	Unverified
2	GeoCLAP	Median Rank	159	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dual Path	Text-to-image Medr	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Image-to-text R@1	56.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3SHNet	Image-to-text R@1	85.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NAPReg	Text-to-image R@1	43	—	Unverified