Zero-Shot Image Classification

Zero-shot image classification is a technique in computer vision where a model can classify images into categories that were not present during training. This is achieved by leveraging semantic information about the categories, such as textual descriptions or relationships between classes.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 111 papers

Title	Date	Tasks	Status	Score
KPL: Training-Free Medical Knowledge Mining of Vision-Language Models	Jan 20, 2025	Classificationimage-classification	CodeCode Available	5
Text-to-Image Diffusion Models are Zero-Shot Classifiers	Mar 27, 2023	AttributeContrastive Learning	CodeCode Available	5
Segment Any Change	Feb 2, 2024	Change Detectionimage-classification	CodeCode Available	5
Unconstrained Open Vocabulary Image Classification: Zero-Shot Transfer from Text to Image via CLIP Inversion	Jul 15, 2024	image-classificationImage Classification	CodeCode Available	5
Altogether: Image Captioning via Re-aligning Alt-text	Oct 22, 2024	Image Captioningimage-classification	CodeCode Available	5
Towards Difficulty-Agnostic Efficient Transfer Learning for Vision-Language Models	Nov 27, 2023	General Knowledgeimage-classification	CodeCode Available	5
PaLI: A Jointly-Scaled Multilingual Language-Image Model	Sep 14, 2022	DecoderFew-Shot Image Classification	CodeCode Available	5
Open-vocabulary vs. Closed-set: Best Practice for Few-shot Object Detection Considering Text Describability	Oct 20, 2024	Few-Shot Object Detectionimage-classification	CodeCode Available	5
Multilingual Vision-Language Pre-training for the Remote Sensing Domain	Oct 30, 2024	Cross-Modal Retrievalimage-classification	CodeCode Available	5
What Do You See? Enhancing Zero-Shot Image Classification with Multimodal Large Language Models	May 24, 2024	Classificationimage-classification	CodeCode Available	5
Learning from Children: Improving Image-Caption Pretraining via Curriculum	May 27, 2023	image-classificationImage Classification	CodeCode Available	5
Who's in and who's out? A case study of multimodal CLIP-filtering in DataComp	May 13, 2024	image-classificationImage Classification	CodeCode Available	5
Wukong: A 100 Million Large-scale Chinese Cross-modal Pre-training Benchmark	Feb 14, 2022	BenchmarkingContrastive Learning	CodeCode Available	5
MoDE: CLIP Data Experts via Clustering	Apr 24, 2024	Clusteringimage-classification	CodeCode Available	5
Semantically-Prompted Language Models Improve Visual Descriptions	Jun 5, 2023	ClassificationDescriptive	—Unverified	0
MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual Representations	Mar 2, 2025	image-classificationImage Classification	—Unverified	0
A Fistful of Words: Learning Transferable Visual Models from Bag-of-Words Supervision	Dec 27, 2021	ClassificationImage Captioning	—Unverified	0
A Progressive Framework of Vision-language Knowledge Distillation and Alignment for Multilingual Scene	Apr 17, 2024	image-classificationImage Classification	—Unverified	0
BaFTA: Backprop-Free Test-Time Adaptation For Zero-Shot Vision-Language Models	Jun 17, 2024	image-classificationImage Classification	—Unverified	0
Bayesian Test-Time Adaptation for Vision-Language Models	Mar 12, 2025	image-classificationImage Classification	—Unverified	0
Beyond the Visible: Multispectral Vision-Language Learning for Earth Observation	Mar 20, 2025	Contrastive LearningEarth Observation	—Unverified	0
Bridge the Modality and Capability Gaps in Vision-Language Model Selection	Mar 20, 2024	Capacity Estimationimage-classification	—Unverified	0
CIBR: Cross-modal Information Bottleneck Regularization for Robust CLIP Generalization	Mar 31, 2025	Contrastive Learningimage-classification	—Unverified	0
CLAMP: Contrastive LAnguage Model Prompt-tuning	Dec 4, 2023	Contrastive LearningImage Captioning	—Unverified	0
Class Knowledge Overlay to Visual Feature Learning for Zero-Shot Image Classification	Feb 26, 2021	General Classificationimage-classification	—Unverified	0
CLIP-PING: Boosting Lightweight Vision-Language Models with Proximus Intrinsic Neighbors Guidance	Dec 5, 2024	Contrastive Learningcross-modal alignment	—Unverified	0
CoAPT: Context Attribute words for Prompt Tuning	Jul 18, 2024	AttributeDescriptive	—Unverified	0
CSA: Data-efficient Mapping of Unimodal Features to Multimodal Features	Oct 10, 2024	Cross-Modal RetrievalGPU	—Unverified	0
DiRaC-I: Identifying Diverse and Rare Training Classes for Zero-Shot Learning	Dec 31, 2022	Active LearningAttribute	—Unverified	0
Efficient Model-Agnostic Multi-Group Equivariant Networks	Oct 14, 2023	Fairnessimage-classification	—Unverified	0
Efficient Multilingual Multi-modal Pre-training through Triple Contrastive Loss	Oct 1, 2022	image-classificationImage Classification	—Unverified	0
Exploring Low-Resource Medical Image Classification with Weakly Supervised Prompt Learning	Feb 6, 2024	Few-Shot Learningimage-classification	—Unverified	0
Gaze Embeddings for Zero-Shot Image Classification	Nov 28, 2016	ClassificationFine-Grained Image Classification	—Unverified	0
Generative Negative Text Replay for Continual Vision-Language Pretraining	Oct 31, 2022	Continual Learningimage-classification	—Unverified	0
GrowCLIP: Data-aware Automatic Model Growing for Large-scale Contrastive Language-Image Pre-training	Aug 22, 2023	image-classificationImage Classification	—Unverified	0
I2DFormer: Learning Image to Document Attention for Zero-Shot Image Classification	Sep 21, 2022	Generalized Zero-Shot Learningimage-classification	—Unverified	0
I2MVFormer: Large Language Model Generated Multi-View Document Supervision for Zero-Shot Image Classification	Dec 5, 2022	Classificationimage-classification	—Unverified	0
Improving Semantic Embedding Consistency by Metric Learning for Zero-Shot Classification	Jul 27, 2016	AttributeGeneral Classification	—Unverified	0
Integrating Propositional and Relational Label Side Information for Hierarchical Zero-Shot Image Classification	Feb 14, 2019	AttributeGeneral Classification	—Unverified	0
It's Not a Modality Gap: Characterizing and Addressing the Contrastive Gap	May 28, 2024	image-classificationImage Classification	—Unverified	0
Language to Network: Conditional Parameter Adaptation with Natural Language Descriptions	Jul 1, 2020	General Classificationimage-classification	—Unverified	0
Large-Scale Zero-Shot Image Classification from Rich and Diverse Textual Descriptions	Mar 17, 2021	ArticlesGeneral Classification	—Unverified	0
Multimodal Adversarial Defense for Vision-Language Models by Leveraging One-To-Many Relationships	May 29, 2024	Adversarial DefenseAdversarial Robustness	—Unverified	0
LightCLIP: Learning Multi-Level Interaction for Lightweight Vision-Language Models	Dec 1, 2023	image-classificationImage Classification	—Unverified	0
LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model	Oct 3, 2024	image-classificationImage Classification	—Unverified	0
MADS: Multi-Attribute Document Supervision for Zero-Shot Image Classification	Mar 10, 2025	Attributeimage-classification	—Unverified	0
Multi-method Integration with Confidence-based Weighting for Zero-shot Image Classification	May 3, 2024	image-classificationImage Classification	—Unverified	0
Noise-Tolerant Few-Shot Unsupervised Adapter for Vision-Language Models	Sep 26, 2023	image-classificationImage Classification	—Unverified	0
PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model Pretraining	Apr 29, 2022	Image ClassificationLanguage Modeling	—Unverified	0
RA-CLIP: Retrieval Augmented Contrastive Language-Image Pre-Training	Jan 1, 2023	Classificationimage-classification	—Unverified	0

Show:10 25 50

← PrevPage 2 of 3Next →

All datasets Country211 ICinW ODinW

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	OpenClip H/14 (34B)(Laion2B)	Top-1 accuracy	30.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CLIP (ViT B-32)	Average Score	56.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GLIP (Tiny A)	Average Score	11.4	—	Unverified