SOTAVerified|Agents Browse Leaderboard About Blog

Cross-Modal Information Retrieval

Cross-Modal Information Retrieval (CMIR) is the task of finding relevant items across different modalities. For example, given an image, find a text or vice versa. The main challenge in CMIR is known as the heterogeneity gap: since items from different modalities have different data types, the similarity between them cannot be measured directly. Therefore, the majority of CMIR methods published to date attempt to bridge this gap by learning a latent representation space, where the similarity between items from different modalities can be measured.

Source: Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11–16 of 16 papers

Title	Date	Tasks	Status
ZSCRGAN: A GAN-based Expectation Maximization Model for Zero-Shot Retrieval of Images from Textual Descriptions	Jul 23, 2020	Cross-Modal Information RetrievalImage Retrieval	CodeCode Available
Cross-modal representation alignment of molecular structure and perturbation-induced transcriptional profiles	Nov 22, 2019	Cross-Modal Information RetrievalInformation Retrieval	CodeCode Available
CMIR-NET : A Deep Learning Based Model For Cross-Modal Retrieval In Remote Sensing	Apr 9, 2019	Cross-Modal Information RetrievalCross-Modal Retrieval	CodeCode Available
Scene Graph Reasoning with Prior Visual Relationship for Visual Question Answering	Dec 23, 2018	Cross-Modal Information RetrievalInformation Retrieval	—Unverified
Modeling Text with Graph Convolutional Network for Cross-Modal Information Retrieval	Feb 3, 2018	Cross-Modal Information RetrievalInformation Retrieval	—Unverified
Picture It In Your Mind: Generating High Level Visual Representations From Textual Descriptions	Jun 23, 2016	Cross-Modal Information RetrievalCross-Modal Retrieval	CodeCode Available

Show:10 25 50

← PrevPage 2 of 2Next →

No leaderboard results yet.