Cross-Modal Information Retrieval

Cross-Modal Information Retrieval (CMIR) is the task of finding relevant items across different modalities. For example, given an image, find a text or vice versa. The main challenge in CMIR is known as the heterogeneity gap: since items from different modalities have different data types, the similarity between them cannot be measured directly. Therefore, the majority of CMIR methods published to date attempt to bridge this gap by learning a latent representation space, where the similarity between items from different modalities can be measured.

Source: Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–16 of 16 papers

Title	Date	Tasks	Status	Hype
VisualSparta: An Embarrassingly Simple Approach to Large-scale Text-to-Image Search with Weighted Bag-of-words	Jan 1, 2021	CPUCross-Modal Information Retrieval	CodeCode Available	1
Learning the Best Pooling Strategy for Visual Semantic Embedding	Nov 9, 2020	Cross-Modal Information RetrievalImage-text Retrieval	CodeCode Available	1
Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using Transformer Encoders	Aug 12, 2020	Cross-Modal Information RetrievalCross-Modal Retrieval	CodeCode Available	1
Multimodal Representation Alignment for Cross-modal Information Retrieval	Jun 10, 2025	Cross-Modal Information RetrievalInformation Retrieval	—Unverified	0
jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images	Dec 11, 2024	Contrastive LearningCross-Modal Information Retrieval	—Unverified	0
Is Cross-modal Information Retrieval Possible without Training?	Apr 20, 2023	Contrastive LearningCross-Modal Information Retrieval	—Unverified	0
Multi-modal Machine Learning in Engineering Design: A Review and Future Directions	Feb 14, 2023	Cross-Modal Information RetrievalDesign Synthesis	—Unverified	0
VITR: Augmenting Vision Transformers with Relation-Focused Learning for Cross-Modal Information Retrieval	Feb 13, 2023	Cross-Modal Information RetrievalCross-Modal Retrieval	—Unverified	0
Improving Visual-Semantic Embeddings by Learning Semantically-Enhanced Hard Negatives for Cross-modal Information Retrieval	Oct 10, 2022	Cross-Modal Information RetrievalImage Description	CodeCode Available	0
LILE: Look In-Depth before Looking Elsewhere -- A Dual Attention Network using Transformers for Cross-Modal Information Retrieval in Histopathology Archives	Mar 2, 2022	Cross-Modal Information RetrievalCross-Modal Retrieval	—Unverified	0
ZSCRGAN: A GAN-based Expectation Maximization Model for Zero-Shot Retrieval of Images from Textual Descriptions	Jul 23, 2020	Cross-Modal Information RetrievalImage Retrieval	CodeCode Available	0
Cross-modal representation alignment of molecular structure and perturbation-induced transcriptional profiles	Nov 22, 2019	Cross-Modal Information RetrievalInformation Retrieval	CodeCode Available	0
CMIR-NET : A Deep Learning Based Model For Cross-Modal Retrieval In Remote Sensing	Apr 9, 2019	Cross-Modal Information RetrievalCross-Modal Retrieval	CodeCode Available	0
Scene Graph Reasoning with Prior Visual Relationship for Visual Question Answering	Dec 23, 2018	Cross-Modal Information RetrievalInformation Retrieval	—Unverified	0
Modeling Text with Graph Convolutional Network for Cross-Modal Information Retrieval	Feb 3, 2018	Cross-Modal Information RetrievalInformation Retrieval	—Unverified	0
Picture It In Your Mind: Generating High Level Visual Representations From Textual Descriptions	Jun 23, 2016	Cross-Modal Information RetrievalCross-Modal Retrieval	CodeCode Available	0

Show:10 25 50

No leaderboard results yet.