Cross-Modal Information Retrieval

Cross-Modal Information Retrieval (CMIR) is the task of finding relevant items across different modalities. For example, given an image, find a text or vice versa. The main challenge in CMIR is known as the heterogeneity gap: since items from different modalities have different data types, the similarity between them cannot be measured directly. Therefore, the majority of CMIR methods published to date attempt to bridge this gap by learning a latent representation space, where the similarity between items from different modalities can be measured.

Source: Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 16 papers

Title	Date	Tasks	Status	Hype	Score
Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using Transformer Encoders	Aug 12, 2020	Cross-Modal Information RetrievalCross-Modal Retrieval	CodeCode Available	1	5
Learning the Best Pooling Strategy for Visual Semantic Embedding	Nov 9, 2020	Cross-Modal Information RetrievalImage-text Retrieval	CodeCode Available	1	5
VisualSparta: An Embarrassingly Simple Approach to Large-scale Text-to-Image Search with Weighted Bag-of-words	Jan 1, 2021	CPUCross-Modal Information Retrieval	CodeCode Available	1	5
ZSCRGAN: A GAN-based Expectation Maximization Model for Zero-Shot Retrieval of Images from Textual Descriptions	Jul 23, 2020	Cross-Modal Information RetrievalImage Retrieval	CodeCode Available	0	5
CMIR-NET : A Deep Learning Based Model For Cross-Modal Retrieval In Remote Sensing	Apr 9, 2019	Cross-Modal Information RetrievalCross-Modal Retrieval	CodeCode Available	0	5
Improving Visual-Semantic Embeddings by Learning Semantically-Enhanced Hard Negatives for Cross-modal Information Retrieval	Oct 10, 2022	Cross-Modal Information RetrievalImage Description	CodeCode Available	0	5
Picture It In Your Mind: Generating High Level Visual Representations From Textual Descriptions	Jun 23, 2016	Cross-Modal Information RetrievalCross-Modal Retrieval	CodeCode Available	0	5
Cross-modal representation alignment of molecular structure and perturbation-induced transcriptional profiles	Nov 22, 2019	Cross-Modal Information RetrievalInformation Retrieval	CodeCode Available	0	5
VITR: Augmenting Vision Transformers with Relation-Focused Learning for Cross-Modal Information Retrieval	Feb 13, 2023	Cross-Modal Information RetrievalCross-Modal Retrieval	—Unverified	0	0
Modeling Text with Graph Convolutional Network for Cross-Modal Information Retrieval	Feb 3, 2018	Cross-Modal Information RetrievalInformation Retrieval	—Unverified	0	0

Show:10 25 50

← PrevPage 1 of 2Next →

No leaderboard results yet.