Image-text Retrieval

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–248 of 248 papers

Title	Date	Tasks	Status
Masked Contrastive Pre-Training for Efficient Video-Text Retrieval	Dec 2, 2022	Image-text RetrievalRetrieval	—Unverified
MASS: Overcoming Language Bias in Image-Text Matching	Jan 20, 2025	Image-text matchingImage-text Retrieval	—Unverified
Maximal Matching Matters: Preventing Representation Collapse for Robust Cross-Modal Retrieval	Jun 26, 2025	Cross-Modal RetrievalImage-text Retrieval	—Unverified
MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval	Oct 30, 2023	cross-modal alignmentImage-text Retrieval	—Unverified
Multilateral Semantic Relations Modeling for Image Text Retrieval	Jan 1, 2023	Image-text RetrievalRetrieval	—Unverified
Negative Sample is Negative in Its Own Way: Tailoring Negative Sentences for Image-Text Retrieval	Dec 17, 2021	Image-text RetrievalRetrieval	—Unverified
NEVLP: Noise-Robust Framework for Efficient Vision-Language Pre-training	Sep 15, 2024	Contrastive Learningcross-modal alignment	—Unverified
NLIP: Noise-robust Language-Image Pre-training	Dec 14, 2022	Image CaptioningImage-text Retrieval	—Unverified
Playing Lottery Tickets with Vision and Language	Apr 23, 2021	Image-text RetrievalQuestion Answering	—Unverified
Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training	Jun 25, 2021	Image-text RetrievalQuestion Answering	—Unverified
Progressive Learning for Image Retrieval with Hybrid-Modality Queries	Apr 24, 2022	Image RetrievalImage-text Retrieval	—Unverified
Progressive Local Alignment for Medical Multimodal Pre-training	Feb 25, 2025	Contrastive LearningImage-text Retrieval	—Unverified
Prompt-based Learning for Unpaired Image Captioning	May 26, 2022	Image CaptioningImage-text Retrieval	—Unverified
Pushing the Limits of Vision-Language Models in Remote Sensing without Human Annotations	Sep 11, 2024	Image-text RetrievalText Retrieval	—Unverified
RECLIP: Resource-efficient CLIP by Training with Small Images	Apr 12, 2023	Contrastive LearningImage-text Retrieval	—Unverified
Re-Imagen: Retrieval-Augmented Text-to-Image Generator	Sep 29, 2022	Image GenerationImage-text Retrieval	—Unverified
Representation Discrepancy Bridging Method for Remote Sensing Image-Text Retrieval	May 22, 2025	cross-modal alignmentImage-text Retrieval	—Unverified
Revising Image-Text Retrieval via Multi-Modal Entailment	Aug 22, 2022	Image-text RetrievalNatural Language Inference	—Unverified
Robust Cross-Modal Representation Learning with Progressive Self-Distillation	Apr 10, 2022	Contrastive LearningImage Captioning	—Unverified
RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing Data	Oct 23, 2022	Image CaptioningImage-text Retrieval	—Unverified
Scale-Semantic Joint Decoupling Network for Image-text Retrieval in Remote Sensing	Dec 12, 2022	Cross-Modal RetrievalImage-text Retrieval	—Unverified
Scene Graph Based Fusion Network For Image-Text Retrieval	Mar 20, 2023	Image-text RetrievalRetrieval	—Unverified
Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement	Apr 6, 2024	Image-text Retrievalobject-detection	—Unverified
SeLIP: Similarity Enhanced Contrastive Language Image Pretraining for Multi-modal Head MRI	Mar 25, 2025	Contrastive LearningImage Segmentation	—Unverified
SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features	Feb 20, 2025	FairnessImage-text Retrieval	—Unverified
Survey of Visual-Semantic Embedding Methods for Zero-Shot Image Retrieval	May 16, 2021	Graph GenerationImage Captioning	—Unverified
SwAMP: Swapped Assignment of Multi-Modal Pairs for Cross-Modal Retrieval	Nov 10, 2021	Contrastive LearningCross-Modal Retrieval	—Unverified
Switch-BERT: Learning to Model Multimodal Interactions by Switching Attention and Input	Jun 25, 2023	DiversityImage-text Retrieval	—Unverified
SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for Multimodal Alignment	Jan 4, 2024	Image Captioningimage-classification	—Unverified
The style transformer with common knowledge optimization for image-text retrieval	Mar 1, 2023	Image-text RetrievalRetrieval	—Unverified
TSVC:Tripartite Learning with Semantic Variation Consistency for Robust Image-Text Retrieval	Jan 19, 2025	Cross-Modal RetrievalImage-text Retrieval	—Unverified
UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training	Apr 1, 2021	Image-text matchingImage-text Retrieval	—Unverified
UFO: A UniFied TransfOrmer for Vision-Language Representation Learning	Nov 19, 2021	Image CaptioningImage-text matching	—Unverified
Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning	Mar 10, 2023	Few-Shot Image Classificationimage-classification	—Unverified
Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training	Aug 16, 2019	Image-text matchingImage-text Retrieval	—Unverified
Unified Multimodal Pre-training and Prompt-based Tuning for Vision-Language Understanding and Generation	Dec 10, 2021	Image-text matchingImage-text Retrieval	—Unverified
Uni-Mlip: Unified Self-supervision for Medical Vision Language Pre-training	Nov 20, 2024	Contrastive Learningimage-classification	—Unverified
UNITER: Learning UNiversal Image-TExt Representations	Sep 25, 2019	Image-text matchingImage-text Retrieval	—Unverified
UrbanCross: Enhancing Satellite Image-Text Retrieval with Cross-Domain Adaptation	Apr 22, 2024	DiversityDomain Adaptation	—Unverified
Variance-Aware Loss Scheduling for Multimodal Alignment in Low-Data Settings	Mar 5, 2025	Contrastive LearningImage-text Retrieval	—Unverified
ViLEM: Visual-Language Error Modeling for Image-Text Retrieval	Jan 1, 2023	Contrastive LearningImage-text Retrieval	—Unverified
VL-BEiT: Generative Vision-Language Pretraining	Jun 2, 2022	image-classificationImage Classification	—Unverified
VLMAE: Vision-Language Masked Autoencoder	Aug 19, 2022	Image-text RetrievalLanguage Modeling	—Unverified
VL-Match: Enhancing Vision-Language Pretraining with Token-Level and Instance-Level Matching	Jan 1, 2023	Image-text matchingImage-text Retrieval	—Unverified
Webly Supervised Joint Embedding for Cross-Modal Image-Text Retrieval	Aug 23, 2018	Cross-Modal RetrievalImage-text Retrieval	—Unverified
Webly Supervised Joint Embedding for Cross-Modal lmage-Text Retrieval	Oct 1, 2018	Cross-Modal RetrievalImage-text Retrieval	—Unverified
XGPT: Cross-modal Generative Pre-Training for Image Captioning	Mar 3, 2020	Data AugmentationDenoising	—Unverified
Toward Automatic Relevance Judgment using Vision--Language Models for Image--Text Retrieval Evaluation	Aug 2, 2024	Image-text RetrievalRetrieval	—Unverified

Show:10 25 50

← PrevPage 5 of 5Next →

No leaderboard results yet.