Image-text Retrieval

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 248 papers

Title	Date	Tasks	Status
HiVLP: Hierarchical Vision-Language Pre-Training for Fast Image-Text Retrieval	May 24, 2022	Cross-Modal RetrievalImage-text Retrieval	—Unverified
How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval?	Jul 10, 2024	Contrastive LearningImage-text Retrieval	—Unverified
Hypernymization of named entity-rich captions for grounding-based multi-modal pretraining	Apr 25, 2023	ArticlesImage-text Retrieval	—Unverified
IG Captioner: Information Gain Captioners are Strong Zero-shot Classifiers	Nov 27, 2023	Caption GenerationImage-text Retrieval	—Unverified
Image-text Retrieval: A Survey on Recent Research and Development	Mar 28, 2022	Image-text RetrievalRetrieval	—Unverified
Image-Text Retrieval with Binary and Continuous Label Supervision	Oct 20, 2022	Image CaptioningImage-text Retrieval	—Unverified
Improving Adversarial Transferability of Vision-Language Pre-training Models through Collaborative Multimodal Interaction	Mar 16, 2024	Adversarial RobustnessImage-text Retrieval	—Unverified
Knowledge-grounded Adaptation Strategy for Vision-language Models: Building Unique Case-set for Screening Mammograms for Residents Training	May 30, 2024	Image-text RetrievalLanguage Modeling	—Unverified
Knowledge Transfer Across Modalities with Natural Language Supervision	Nov 23, 2024	Image-text RetrievalNovel Concepts	—Unverified
Learning Multi-Modal Nonlinear Embeddings: Performance Bounds and an Algorithm	Jun 3, 2020	cross-modal alignmentGeneral Classification	—Unverified
Learning to embed semantic similarity for joint image-text retrieval	Oct 7, 2022	Image-text RetrievalMetric Learning	—Unverified
Multimodal Adversarial Defense for Vision-Language Models by Leveraging One-To-Many Relationships	May 29, 2024	Adversarial DefenseAdversarial Robustness	—Unverified
LightCLIP: Learning Multi-Level Interaction for Lightweight Vision-Language Models	Dec 1, 2023	image-classificationImage Classification	—Unverified
LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning	Mar 4, 2025	Contrastive LearningImage-text Retrieval	—Unverified
Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models	Nov 17, 2017	Cross-Modal RetrievalImage-text Retrieval	—Unverified
LoopITR: Combining Dual and Cross Encoder Architectures for Image-Text Retrieval	Mar 10, 2022	Image-text RetrievalRetrieval	—Unverified
LuoJiaHOG: A Hierarchy Oriented Geo-aware Image Caption Dataset for Remote Sensing Image-Text Retrival	Mar 16, 2024	Caption GenerationImage-text Retrieval	—Unverified
MAMO: Masked Multimodal Modeling for Fine-Grained Vision-Language Representation Learning	Oct 9, 2022	Image-text Retrievalmultimodal interaction	—Unverified
Masked Contrastive Pre-Training for Efficient Video-Text Retrieval	Dec 2, 2022	Image-text RetrievalRetrieval	—Unverified
MASS: Overcoming Language Bias in Image-Text Matching	Jan 20, 2025	Image-text matchingImage-text Retrieval	—Unverified
Maximal Matching Matters: Preventing Representation Collapse for Robust Cross-Modal Retrieval	Jun 26, 2025	Cross-Modal RetrievalImage-text Retrieval	—Unverified
MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval	Oct 30, 2023	cross-modal alignmentImage-text Retrieval	—Unverified
Multilateral Semantic Relations Modeling for Image Text Retrieval	Jan 1, 2023	Image-text RetrievalRetrieval	—Unverified
Negative Sample is Negative in Its Own Way: Tailoring Negative Sentences for Image-Text Retrieval	Dec 17, 2021	Image-text RetrievalRetrieval	—Unverified
NEVLP: Noise-Robust Framework for Efficient Vision-Language Pre-training	Sep 15, 2024	Contrastive Learningcross-modal alignment	—Unverified
NLIP: Noise-robust Language-Image Pre-training	Dec 14, 2022	Image CaptioningImage-text Retrieval	—Unverified
Playing Lottery Tickets with Vision and Language	Apr 23, 2021	Image-text RetrievalQuestion Answering	—Unverified
Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training	Jun 25, 2021	Image-text RetrievalQuestion Answering	—Unverified
Progressive Learning for Image Retrieval with Hybrid-Modality Queries	Apr 24, 2022	Image RetrievalImage-text Retrieval	—Unverified
Progressive Local Alignment for Medical Multimodal Pre-training	Feb 25, 2025	Contrastive LearningImage-text Retrieval	—Unverified
Prompt-based Learning for Unpaired Image Captioning	May 26, 2022	Image CaptioningImage-text Retrieval	—Unverified
Pushing the Limits of Vision-Language Models in Remote Sensing without Human Annotations	Sep 11, 2024	Image-text RetrievalText Retrieval	—Unverified
RECLIP: Resource-efficient CLIP by Training with Small Images	Apr 12, 2023	Contrastive LearningImage-text Retrieval	—Unverified
Representation Discrepancy Bridging Method for Remote Sensing Image-Text Retrieval	May 22, 2025	cross-modal alignmentImage-text Retrieval	—Unverified
Revising Image-Text Retrieval via Multi-Modal Entailment	Aug 22, 2022	Image-text RetrievalNatural Language Inference	—Unverified
Robust Cross-Modal Representation Learning with Progressive Self-Distillation	Apr 10, 2022	Contrastive LearningImage Captioning	—Unverified
RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing Data	Oct 23, 2022	Image CaptioningImage-text Retrieval	—Unverified
Scale-Semantic Joint Decoupling Network for Image-text Retrieval in Remote Sensing	Dec 12, 2022	Cross-Modal RetrievalImage-text Retrieval	—Unverified
Scene Graph Based Fusion Network For Image-Text Retrieval	Mar 20, 2023	Image-text RetrievalRetrieval	—Unverified
Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement	Apr 6, 2024	Image-text Retrievalobject-detection	—Unverified
SeLIP: Similarity Enhanced Contrastive Language Image Pretraining for Multi-modal Head MRI	Mar 25, 2025	Contrastive LearningImage Segmentation	—Unverified
SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features	Feb 20, 2025	FairnessImage-text Retrieval	—Unverified
Survey of Visual-Semantic Embedding Methods for Zero-Shot Image Retrieval	May 16, 2021	Graph GenerationImage Captioning	—Unverified
SwAMP: Swapped Assignment of Multi-Modal Pairs for Cross-Modal Retrieval	Nov 10, 2021	Contrastive LearningCross-Modal Retrieval	—Unverified
Switch-BERT: Learning to Model Multimodal Interactions by Switching Attention and Input	Jun 25, 2023	DiversityImage-text Retrieval	—Unverified
SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for Multimodal Alignment	Jan 4, 2024	Image Captioningimage-classification	—Unverified
The style transformer with common knowledge optimization for image-text retrieval	Mar 1, 2023	Image-text RetrievalRetrieval	—Unverified
TSVC:Tripartite Learning with Semantic Variation Consistency for Robust Image-Text Retrieval	Jan 19, 2025	Cross-Modal RetrievalImage-text Retrieval	—Unverified
UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training	Apr 1, 2021	Image-text matchingImage-text Retrieval	—Unverified
UFO: A UniFied TransfOrmer for Vision-Language Representation Learning	Nov 19, 2021	Image CaptioningImage-text matching	—Unverified

Show:10 25 50

← PrevPage 4 of 5Next →

No leaderboard results yet.