Image-text matching

Image-Text Matching is a subtask within Cross-Modal Retrieval (CMR) that involves establishing associations between images and corresponding textual descriptions. The goal is to retrieve an image given a textual query or, conversely, retrieve a textual description given an image query. This task is challenging due to the heterogeneity gap between image and text data representations. Image-text matching is used in applications such as content-based image search, visual question answering, and multimodal summarization.

Assessing Brittleness of Image-Text Retrieval Benchmarks from Vision-Language Models Perspective

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–188 of 188 papers

Title	Date	Tasks	Status
DT2I: Dense Text-to-Image Generation from Region Descriptions	Apr 5, 2022	Conditional Image GenerationImage Generation	—Unverified
Two-stream Hierarchical Similarity Reasoning for Image-text Matching	Mar 10, 2022	Image-text matchingImage to text	—Unverified
Dual Embodied-Symbolic Concept Representations for Deep Learning	Mar 1, 2022	class-incremental learningClass Incremental Learning	—Unverified
Unpaired Referring Expression Grounding via Bidirectional Cross-Modal Matching	Jan 18, 2022	Image-text matchingReferring Expression	—Unverified
Probing the Role of Positional Information in Vision-Language Models	Jan 16, 2022	Contrastive LearningImage-text matching	—Unverified
Unified Multimodal Pre-training and Prompt-based Tuning for Vision-Language Understanding and Generation	Dec 10, 2021	Image-text matchingImage-text Retrieval	—Unverified
Embedding Arithmetic of Multimodal Queries for Image Retrieval	Dec 6, 2021	Image RetrievalImage-text matching	—Unverified
UFO: A UniFied TransfOrmer for Vision-Language Representation Learning	Nov 19, 2021	Image CaptioningImage-text matching	—Unverified
More Than Just Attention: Improving Cross-Modal Attentions with Contrastive Constraints for Image-Text Matching	Nov 16, 2021	Contrastive LearningImage-text matching	—Unverified
MURAL: Multimodal, Multitask Representations Across Languages	Nov 1, 2021	Cross-Modal RetrievalImage-text matching	—Unverified
Is An Image Worth Five Sentences? A New Look into Semantics for Image-Text Matching	Oct 6, 2021	Image CaptioningImage-text matching	—Unverified
MURAL: Multimodal, Multitask Retrieval Across Languages	Sep 10, 2021	Cross-Modal RetrievalImage-text matching	—Unverified
Hashing based Efficient Inference for Image-Text Matching	Aug 1, 2021	Image-text matchingText Matching	—Unverified
A Self-Boosting Framework for Automated Radiographic Report Generation	Jun 19, 2021	Image CaptioningImage-text matching	—Unverified
Step-Wise Hierarchical Alignment Network for Image-Text Matching	Jun 11, 2021	Image-text matchingText Matching	—Unverified
Towards Efficient Cross-Modal Visual Textual Retrieval using Transformer-Encoder Deep Features	Jun 1, 2021	Cross-Modal RetrievalImage Retrieval	—Unverified
More Than Just Attention: Improving Cross-Modal Attentions with Contrastive Constraints for Image-Text Matching	May 20, 2021	Contrastive LearningCross-Modal Retrieval	—Unverified
VL-NMS: Breaking Proposal Bottlenecks in Two-Stage Visual-Language Matching	May 12, 2021	Image-text matchingReferring Expression	—Unverified
Discrete-continuous Action Space Policy Gradient-based Attention for Image-Text Matching	Apr 21, 2021	Image-text matchingText Matching	—Unverified
UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training	Apr 1, 2021	Image-text matchingImage-text Retrieval	—Unverified
Macroscopic Control of Text Generation for Image Captioning	Jan 20, 2021	DiversityImage Captioning	—Unverified
Contrastive Cross-Modal Pre-Training: A General Strategy for Small Sample Medical Imaging	Oct 6, 2020	Image ClassificationImage-text matching	—Unverified
A Novel Attention-based Aggregation Function to Combine Vision and Language	Apr 27, 2020	General ClassificationImage Captioning	—Unverified
InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining	Mar 30, 2020	Image RetrievalImage-text matching	—Unverified
Expressing Objects just like Words: Recurrent Visual Embedding for Image-Text Matching	Feb 20, 2020	Image-text matchingObject	—Unverified
ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data	Jan 22, 2020	Image RetrievalImage-text matching	—Unverified
Learning fragment self-attention embeddings for image-text matching	Oct 1, 2019	Image-text matchingSentence	CodeCode Available
UNITER: Learning UNiversal Image-TExt Representations	Sep 25, 2019	Image-text matchingImage-text Retrieval	—Unverified
Learning Visual Relation Priors for Image-Text Matching and Image Captioning with Neural Scene Graph Generators	Sep 22, 2019	Image CaptioningImage-text matching	—Unverified
Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training	Aug 16, 2019	Image-text matchingImage-text Retrieval	—Unverified
Matching Images and Text with Multi-modal Tensor Fusion and Re-ranking	Aug 12, 2019	Binary ClassificationGeneral Classification	CodeCode Available
Knowledge Aware Semantic Concept Expansion for Image-Text Matching	Aug 10, 2019	Common Sense ReasoningContent-Based Image Retrieval	—Unverified
Position Focused Attention Network for Image-Text Matching	Jul 23, 2019	Image-text matchingPosition	CodeCode Available
ParNet: Position-aware Aggregated Relation Network for Image-Text matching	Jun 17, 2019	Image-text matchingPosition	—Unverified
Deep Cross-Modal Projection Learning for Image-Text Matching	Sep 1, 2018	Cross-Modal RetrievalImage-text matching	CodeCode Available
Cross-modal Subspace Learning for Fine-grained Sketch-based Image Retrieval	May 28, 2017	Cross-Modal RetrievalImage Retrieval	—Unverified
Learning Two-Branch Neural Networks for Image-Text Matching Tasks	Apr 11, 2017	Image-text matchingRetrieval	CodeCode Available
Dual Attention Networks for Multimodal Reasoning and Matching	Nov 2, 2016	Collaborative InferenceImage-text matching	CodeCode Available

Show:10 25 50

← PrevPage 4 of 4Next →

No leaderboard results yet.