Zero-Shot Image Classification

Zero-shot image classification is a technique in computer vision where a model can classify images into categories that were not present during training. This is achieved by leveraging semantic information about the categories, such as textual descriptions or relationships between classes.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 111 papers

Title	Date	Tasks	Status	Hype
Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese	Nov 2, 2022	Contrastive Learningimage-classification	CodeCode Available	5
AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities	Nov 12, 2022	Contrastive LearningCross-Modal Retrieval	CodeCode Available	4
ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models	Apr 19, 2022	FairnessFew-Shot Image Classification	CodeCode Available	4
PromptKD: Unsupervised Prompt Distillation for Vision-Language Models	Mar 5, 2024	Knowledge DistillationPrompt Engineering	CodeCode Available	3
Cross the Gap: Exposing the Intra-modal Misalignment in CLIP via Modality Inversion	Feb 6, 2025	image-classificationImage Classification	CodeCode Available	2
CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling	Sep 28, 2024	image-classificationImage Classification	CodeCode Available	2
PathGen-1.6M: 1.6 Million Pathology Image-text Pairs Generation through Multi-agent Collaboration	Jun 28, 2024	image-classificationImage Classification	CodeCode Available	2
Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP	Jun 25, 2024	cross-modal alignmentImage Classification	CodeCode Available	2
WATT: Weight Average Test-Time Adaptation of CLIP	Jun 19, 2024	image-classificationImage Classification	CodeCode Available	2
CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction	Oct 2, 2023	image-classificationImage Classification	CodeCode Available	2
RemoteCLIP: A Vision Language Foundation Model for Remote Sensing	Jun 19, 2023	ClassificationCross-Modal Retrieval	CodeCode Available	2
What does a platypus look like? Generating customized prompts for zero-shot image classification	Sep 7, 2022	Descriptiveimage-classification	CodeCode Available	2
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision	Feb 11, 2021	Cross-Modal RetrievalFine-Grained Image Classification	CodeCode Available	2
LRSCLIP: A Vision-Language Foundation Model for Aligning Remote Sensing Image with Longer Text	Mar 25, 2025	Cross-Modal RetrievalHallucination	CodeCode Available	1
Post-hoc Probabilistic Vision-Language Models	Dec 8, 2024	Active LearningUncertainty Quantification	CodeCode Available	1
TaxaBind: A Unified Embedding Space for Ecological Applications	Nov 1, 2024	Audio ClassificationCross-Modal Retrieval	CodeCode Available	1
Interpreting and Analysing CLIP's Zero-Shot Image Classification via Mutual Knowledge	Oct 16, 2024	Classificationimage-classification	CodeCode Available	1
Mind's Eye: Image Recognition by EEG via Multimodal Similarity-Keeping Contrastive Learning	Jun 5, 2024	Contrastive LearningEEG	CodeCode Available	1
Sparse Concept Bottleneck Models: Gumbel Tricks in Contrastive Learning	Apr 4, 2024	Contrastive Learningimage-classification	CodeCode Available	1
Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations	Mar 29, 2024	image-classificationImage Classification	CodeCode Available	1
Can We Talk Models Into Seeing the World Differently?	Mar 14, 2024	Image CaptioningImage Classification	CodeCode Available	1
PerceptionCLIP: Visual Classification by Inferring and Conditioning on Contexts	Aug 2, 2023	Classificationimage-classification	CodeCode Available	1
PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization	Jul 27, 2023	Domain GeneralizationImage Classification	CodeCode Available	1
Distilling Large Vision-Language Model with Out-of-Distribution Generalizability	Jul 6, 2023	Few-Shot Image ClassificationImage Classification	CodeCode Available	1
Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding	Jun 15, 2023	Contrastive Learningimage-classification	CodeCode Available	1
Babel-ImageNet: Massively Multilingual Evaluation of Vision-and-Language Representations	Jun 14, 2023	image-classificationImage Classification	CodeCode Available	1
CamDiff: Camouflage Image Augmentation via Diffusion Model	Apr 11, 2023	Dataset GenerationImage Augmentation	CodeCode Available	1
Structure Pretraining and Prompt Tuning for Knowledge Graph Transfer	Mar 3, 2023	image-classificationImage Classification	CodeCode Available	1
CHiLS: Zero-Shot Image Classification with Hierarchical Label Sets	Feb 6, 2023	Classificationimage-classification	CodeCode Available	1
LexLIP: Lexicon-Bottlenecked Language-Image Pre-Training for Large-Scale Image-Text Sparse Retrieval	Jan 1, 2023	image-classificationImage Classification	CodeCode Available	1
Reproducible scaling laws for contrastive language-image learning	Dec 14, 2022	Image ClassificationOpen Vocabulary Attribute Detection	CodeCode Available	1
General Image Descriptors for Open World Image Retrieval using ViT CLIP	Oct 20, 2022	Image RetrievalRetrieval	CodeCode Available	1
Zero-Shot Temporal Action Detection via Vision-Language Prompting	Jul 17, 2022	Action DetectionClassification	CodeCode Available	1
DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning	Jul 4, 2022	AttributeContrastive Learning	CodeCode Available	1
Disentangled Ontology Embedding for Zero-shot Learning	Jun 8, 2022	image-classificationImage Classification	CodeCode Available	1
Masked Unsupervised Self-training for Label-free Image Classification	Jun 7, 2022	image-classificationImage Classification	CodeCode Available	1
CCMB: A Large-scale Chinese Cross-modal Benchmark	May 8, 2022	image-classificationImage Classification	CodeCode Available	1
Zero-Shot Logit Adjustment	Apr 25, 2022	Bayesian InferenceGeneralized Zero-Shot Learning	CodeCode Available	1
Exploring Hierarchical Graph Representation for Large-Scale Zero-Shot Image Classification	Mar 2, 2022	image-classificationImage Classification	CodeCode Available	1
A Simple Baseline for Open-Vocabulary Semantic Segmentation with Pre-trained Vision-language Model	Dec 29, 2021	image-classificationImage Classification	CodeCode Available	1
LiT: Zero-Shot Transfer with Locked-image text Tuning	Nov 15, 2021	image-classificationImage Classification	CodeCode Available	1
FILIP: Fine-grained Interactive Language-Image Pre-Training	Nov 9, 2021	image-classificationImage Classification	CodeCode Available	1
Benchmarking Knowledge-driven Zero-shot Learning	Jun 29, 2021	AttributeBenchmarking	CodeCode Available	1
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation	Apr 28, 2021	image-classificationImage Classification	CodeCode Available	1
Generative Multi-Label Zero-Shot Learning	Jan 27, 2021	AttributeGenerative Adversarial Network	CodeCode Available	1
CIBR: Cross-modal Information Bottleneck Regularization for Robust CLIP Generalization	Mar 31, 2025	Contrastive Learningimage-classification	—Unverified	0
Beyond the Visible: Multispectral Vision-Language Learning for Earth Observation	Mar 20, 2025	Contrastive LearningEarth Observation	—Unverified	0
Bayesian Test-Time Adaptation for Vision-Language Models	Mar 12, 2025	image-classificationImage Classification	—Unverified	0
MADS: Multi-Attribute Document Supervision for Zero-Shot Image Classification	Mar 10, 2025	Attributeimage-classification	—Unverified	0
MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual Representations	Mar 2, 2025	image-classificationImage Classification	—Unverified	0

Show:10 25 50

← PrevPage 1 of 3Next →

All datasets Country211 ICinW ODinW

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	OpenClip H/14 (34B)(Laion2B)	Top-1 accuracy	30.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CLIP (ViT B-32)	Average Score	56.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GLIP (Tiny A)	Average Score	11.4	—	Unverified