Cross-Modal Information Retrieval

Cross-Modal Information Retrieval (CMIR) is the task of finding relevant items across different modalities. For example, given an image, find a text or vice versa. The main challenge in CMIR is known as the heterogeneity gap: since items from different modalities have different data types, the similarity between them cannot be measured directly. Therefore, the majority of CMIR methods published to date attempt to bridge this gap by learning a latent representation space, where the similarity between items from different modalities can be measured.

Source: Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 16 papers

Title	Date	Tasks	Status	Hype
VisualSparta: An Embarrassingly Simple Approach to Large-scale Text-to-Image Search with Weighted Bag-of-words	Jan 1, 2021	CPUCross-Modal Information Retrieval	CodeCode Available	1
Learning the Best Pooling Strategy for Visual Semantic Embedding	Nov 9, 2020	Cross-Modal Information RetrievalImage-text Retrieval	CodeCode Available	1
Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using Transformer Encoders	Aug 12, 2020	Cross-Modal Information RetrievalCross-Modal Retrieval	CodeCode Available	1
jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images	Dec 11, 2024	Contrastive LearningCross-Modal Information Retrieval	—Unverified	0
LILE: Look In-Depth before Looking Elsewhere -- A Dual Attention Network using Transformers for Cross-Modal Information Retrieval in Histopathology Archives	Mar 2, 2022	Cross-Modal Information RetrievalCross-Modal Retrieval	—Unverified	0
VITR: Augmenting Vision Transformers with Relation-Focused Learning for Cross-Modal Information Retrieval	Feb 13, 2023	Cross-Modal Information RetrievalCross-Modal Retrieval	—Unverified	0
Modeling Text with Graph Convolutional Network for Cross-Modal Information Retrieval	Feb 3, 2018	Cross-Modal Information RetrievalInformation Retrieval	—Unverified	0
Multi-modal Machine Learning in Engineering Design: A Review and Future Directions	Feb 14, 2023	Cross-Modal Information RetrievalDesign Synthesis	—Unverified	0
Scene Graph Reasoning with Prior Visual Relationship for Visual Question Answering	Dec 23, 2018	Cross-Modal Information RetrievalInformation Retrieval	—Unverified	0
Multimodal Representation Alignment for Cross-modal Information Retrieval	Jun 10, 2025	Cross-Modal Information RetrievalInformation Retrieval	—Unverified	0

Show:10 25 50

← PrevPage 1 of 2Next →

No leaderboard results yet.