Image-text Retrieval

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 248 papers

Title	Date	Tasks	Status	Hype
MixGen: A New Multi-Modal Data Augmentation	Jun 16, 2022	Data AugmentationImage-text Retrieval	CodeCode Available	1
Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone	Jun 15, 2022	Described Object DetectionImage Captioning	CodeCode Available	1
Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal Pre-training	Jun 1, 2022	Contrastive LearningCross-Lingual Transfer	CodeCode Available	1
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections	May 24, 2022	Computational Efficiencycross-modal alignment	CodeCode Available	1
CCMB: A Large-scale Chinese Cross-modal Benchmark	May 8, 2022	image-classificationImage Classification	CodeCode Available	1
Where Does the Performance Improvement Come From? -- A Reproducibility Concern about Image-Text Retrieval	Mar 8, 2022	Image-text RetrievalInformation Retrieval	CodeCode Available	1
FILIP: Fine-grained Interactive Language-Image Pre-Training	Nov 9, 2021	image-classificationImage Classification	CodeCode Available	1
VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts	Nov 3, 2021	Image RetrievalImage-text Retrieval	CodeCode Available	1
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation	Jul 16, 2021	Cross-Modal RetrievalGrounded language learning	CodeCode Available	1
Dynamic Modality Interaction Modeling for Image-Text Retrieval	Jul 11, 2021	cross-modal alignmentCross-Modal Retrieval	CodeCode Available	1
CoSMo: Content-Style Modulation for Image Retrieval With Text Feedback	Jun 19, 2021	Image RetrievalImage-text Retrieval	CodeCode Available	1
A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval	Jun 4, 2021	Graph MatchingImage Retrieval	CodeCode Available	1
Learning Relation Alignment for Calibrated Cross-modal Retrieval	May 28, 2021	Cross-Modal RetrievalImage-text Retrieval	CodeCode Available	1
LightningDOT: Pre-training Visual-Semantic Embeddings for Real-Time Image-Text Retrieval	Mar 16, 2021	Image-text RetrievalRe-Ranking	CodeCode Available	1
GLoRIA: A Multimodal Global-Local Representation Learning Framework for Label-Efficient Medical Image Recognition	Jan 1, 2021	Image-text RetrievalMedical Image Analysis	CodeCode Available	1
Learning the Best Pooling Strategy for Visual Semantic Embedding	Nov 9, 2020	Cross-Modal Information RetrievalImage-text Retrieval	CodeCode Available	1
A Comparison of Pre-trained Vision-and-Language Models for Multimodal Representation Learning across Medical Images and Reports	Sep 3, 2020	Image-text RetrievalMedical Visual Question Answering	CodeCode Available	1
Graph Optimal Transport for Cross-Domain Alignment	Jun 26, 2020	Graph MatchingImage Captioning	CodeCode Available	1
Large-Scale Adversarial Training for Vision-and-Language Representation Learning	Jun 11, 2020	Image-text RetrievalQuestion Answering	CodeCode Available	1
Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers	Apr 2, 2020	Image-text matchingImage-text Retrieval	CodeCode Available	1
IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval	Mar 8, 2020	Cross-Modal RetrievalImage-text Retrieval	CodeCode Available	1
Cross-modal Scene Graph Matching for Relationship-aware Image-Text Retrieval	Oct 11, 2019	Graph MatchingImage-text Retrieval	CodeCode Available	1
UNITER: UNiversal Image-TExt Representation Learning	Sep 25, 2019	Image-text matchingImage-text Retrieval	CodeCode Available	1
Maximal Matching Matters: Preventing Representation Collapse for Robust Cross-Modal Retrieval	Jun 26, 2025	Cross-Modal RetrievalImage-text Retrieval	—Unverified	0
Adding simple structure at inference improves Vision-Language Compositionality	Jun 11, 2025	AttributeImage-text Retrieval	CodeCode Available	0

Show:10 25 50

← PrevPage 4 of 10Next →

No leaderboard results yet.