Zero-Shot Image Classification

Zero-shot image classification is a technique in computer vision where a model can classify images into categories that were not present during training. This is achieved by leveraging semantic information about the categories, such as textual descriptions or relationships between classes.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 111 papers

Title	Date	Tasks	Status	Hype
CIBR: Cross-modal Information Bottleneck Regularization for Robust CLIP Generalization	Mar 31, 2025	Contrastive Learningimage-classification	—Unverified	0
LRSCLIP: A Vision-Language Foundation Model for Aligning Remote Sensing Image with Longer Text	Mar 25, 2025	Cross-Modal RetrievalHallucination	CodeCode Available	1
Beyond the Visible: Multispectral Vision-Language Learning for Earth Observation	Mar 20, 2025	Contrastive LearningEarth Observation	—Unverified	0
Bayesian Test-Time Adaptation for Vision-Language Models	Mar 12, 2025	image-classificationImage Classification	—Unverified	0
MADS: Multi-Attribute Document Supervision for Zero-Shot Image Classification	Mar 10, 2025	Attributeimage-classification	—Unverified	0
MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual Representations	Mar 2, 2025	image-classificationImage Classification	—Unverified	0
Cross the Gap: Exposing the Intra-modal Misalignment in CLIP via Modality Inversion	Feb 6, 2025	image-classificationImage Classification	CodeCode Available	2
KPL: Training-Free Medical Knowledge Mining of Vision-Language Models	Jan 20, 2025	Classificationimage-classification	CodeCode Available	0
Retaining Knowledge and Enhancing Long-Text Representations in CLIP through Dual-Teacher Distillation	Jan 1, 2025	image-classificationImage Classification	—Unverified	0
Post-hoc Probabilistic Vision-Language Models	Dec 8, 2024	Active LearningUncertainty Quantification	CodeCode Available	1
CLIP-PING: Boosting Lightweight Vision-Language Models with Proximus Intrinsic Neighbors Guidance	Dec 5, 2024	Contrastive Learningcross-modal alignment	—Unverified	0
TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives	Nov 4, 2024	Diversityimage-classification	—Unverified	0
TaxaBind: A Unified Embedding Space for Ecological Applications	Nov 1, 2024	Audio ClassificationCross-Modal Retrieval	CodeCode Available	1
Retrieval-enriched zero-shot image classification in low-resource domains	Nov 1, 2024	image-classificationImage Classification	—Unverified	0
Multilingual Vision-Language Pre-training for the Remote Sensing Domain	Oct 30, 2024	Cross-Modal Retrievalimage-classification	CodeCode Available	0
Altogether: Image Captioning via Re-aligning Alt-text	Oct 22, 2024	Image Captioningimage-classification	—Unverified	0
Open-vocabulary vs. Closed-set: Best Practice for Few-shot Object Detection Considering Text Describability	Oct 20, 2024	Few-Shot Object Detectionimage-classification	CodeCode Available	0
Interpreting and Analysing CLIP's Zero-Shot Image Classification via Mutual Knowledge	Oct 16, 2024	Classificationimage-classification	CodeCode Available	1
CSA: Data-efficient Mapping of Unimodal Features to Multimodal Features	Oct 10, 2024	Cross-Modal RetrievalGPU	—Unverified	0
LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model	Oct 3, 2024	image-classificationImage Classification	—Unverified	0
CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling	Sep 28, 2024	image-classificationImage Classification	CodeCode Available	2
DPA: Dual Prototypes Alignment for Unsupervised Adaptation of Vision-Language Models	Aug 16, 2024	Domain Adaptationimage-classification	CodeCode Available	0
Do Vision-Language Foundational models show Robust Visual Perception?	Aug 13, 2024	image-classificationImage Classification	CodeCode Available	0
CoAPT: Context Attribute words for Prompt Tuning	Jul 18, 2024	AttributeDescriptive	—Unverified	0
Unconstrained Open Vocabulary Image Classification: Zero-Shot Transfer from Text to Image via CLIP Inversion	Jul 15, 2024	image-classificationImage Classification	CodeCode Available	0
Semantic Compositions Enhance Vision-Language Contrastive Learning	Jul 1, 2024	ClassificationContrastive Learning	—Unverified	0
PathGen-1.6M: 1.6 Million Pathology Image-text Pairs Generation through Multi-agent Collaboration	Jun 28, 2024	image-classificationImage Classification	CodeCode Available	2
Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP	Jun 25, 2024	cross-modal alignmentImage Classification	CodeCode Available	2
WATT: Weight Average Test-Time Adaptation of CLIP	Jun 19, 2024	image-classificationImage Classification	CodeCode Available	2
BaFTA: Backprop-Free Test-Time Adaptation For Zero-Shot Vision-Language Models	Jun 17, 2024	image-classificationImage Classification	—Unverified	0
Mind's Eye: Image Recognition by EEG via Multimodal Similarity-Keeping Contrastive Learning	Jun 5, 2024	Contrastive LearningEEG	CodeCode Available	1
Multimodal Adversarial Defense for Vision-Language Models by Leveraging One-To-Many Relationships	May 29, 2024	Adversarial DefenseAdversarial Robustness	—Unverified	0
It's Not a Modality Gap: Characterizing and Addressing the Contrastive Gap	May 28, 2024	image-classificationImage Classification	—Unverified	0
What Do You See? Enhancing Zero-Shot Image Classification with Multimodal Large Language Models	May 24, 2024	Classificationimage-classification	CodeCode Available	0
Who's in and who's out? A case study of multimodal CLIP-filtering in DataComp	May 13, 2024	image-classificationImage Classification	CodeCode Available	0
Multi-method Integration with Confidence-based Weighting for Zero-shot Image Classification	May 3, 2024	image-classificationImage Classification	—Unverified	0
MoDE: CLIP Data Experts via Clustering	Apr 24, 2024	Clusteringimage-classification	—Unverified	0
A Progressive Framework of Vision-language Knowledge Distillation and Alignment for Multilingual Scene	Apr 17, 2024	image-classificationImage Classification	—Unverified	0
Sparse Concept Bottleneck Models: Gumbel Tricks in Contrastive Learning	Apr 4, 2024	Contrastive Learningimage-classification	CodeCode Available	1
Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations	Mar 29, 2024	image-classificationImage Classification	CodeCode Available	1
Bridge the Modality and Capability Gaps in Vision-Language Model Selection	Mar 20, 2024	Capacity Estimationimage-classification	—Unverified	0
Can We Talk Models Into Seeing the World Differently?	Mar 14, 2024	Image CaptioningImage Classification	CodeCode Available	1
PromptKD: Unsupervised Prompt Distillation for Vision-Language Models	Mar 5, 2024	Knowledge DistillationPrompt Engineering	CodeCode Available	3
Exploring Low-Resource Medical Image Classification with Weakly Supervised Prompt Learning	Feb 6, 2024	Few-Shot Learningimage-classification	—Unverified	0
Image-Caption Encoding for Improving Zero-Shot Generalization	Feb 5, 2024	image-classificationImage Classification	CodeCode Available	0
Segment Any Change	Feb 2, 2024	Change Detectionimage-classification	—Unverified	0
CLAMP: Contrastive LAnguage Model Prompt-tuning	Dec 4, 2023	Contrastive LearningImage Captioning	—Unverified	0
LightCLIP: Learning Multi-Level Interaction for Lightweight Vision-Language Models	Dec 1, 2023	image-classificationImage Classification	—Unverified	0
Towards Difficulty-Agnostic Efficient Transfer Learning for Vision-Language Models	Nov 27, 2023	General Knowledgeimage-classification	CodeCode Available	0
Efficient Model-Agnostic Multi-Group Equivariant Networks	Oct 14, 2023	Fairnessimage-classification	—Unverified	0

Show:10 25 50

← PrevPage 1 of 3Next →

All datasets Country211 ICinW ODinW

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	OpenClip H/14 (34B)(Laion2B)	Top-1 accuracy	30.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CLIP (ViT B-32)	Average Score	56.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GLIP (Tiny A)	Average Score	11.4	—	Unverified