Zero-Shot Image Classification

Zero-shot image classification is a technique in computer vision where a model can classify images into categories that were not present during training. This is achieved by leveraging semantic information about the categories, such as textual descriptions or relationships between classes.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 111 papers

Title	Date	Tasks	Status	Hype
CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction	Oct 2, 2023	image-classificationImage Classification	CodeCode Available	2
Noise-Tolerant Few-Shot Unsupervised Adapter for Vision-Language Models	Sep 26, 2023	image-classificationImage Classification	—Unverified	0
GrowCLIP: Data-aware Automatic Model Growing for Large-scale Contrastive Language-Image Pre-training	Aug 22, 2023	image-classificationImage Classification	—Unverified	0
PerceptionCLIP: Visual Classification by Inferring and Conditioning on Contexts	Aug 2, 2023	Classificationimage-classification	CodeCode Available	1
PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization	Jul 27, 2023	Domain GeneralizationImage Classification	CodeCode Available	1
Distilling Large Vision-Language Model with Out-of-Distribution Generalizability	Jul 6, 2023	Few-Shot Image ClassificationImage Classification	CodeCode Available	1
RemoteCLIP: A Vision Language Foundation Model for Remote Sensing	Jun 19, 2023	ClassificationCross-Modal Retrieval	CodeCode Available	2
Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding	Jun 15, 2023	Contrastive Learningimage-classification	CodeCode Available	1
Babel-ImageNet: Massively Multilingual Evaluation of Vision-and-Language Representations	Jun 14, 2023	image-classificationImage Classification	CodeCode Available	1
Semantically-Prompted Language Models Improve Visual Descriptions	Jun 5, 2023	ClassificationDescriptive	—Unverified	0
Learning from Children: Improving Image-Caption Pretraining via Curriculum	May 27, 2023	image-classificationImage Classification	CodeCode Available	0
CamDiff: Camouflage Image Augmentation via Diffusion Model	Apr 11, 2023	Dataset GenerationImage Augmentation	CodeCode Available	1
Text-to-Image Diffusion Models are Zero-Shot Classifiers	Mar 27, 2023	AttributeContrastive Learning	CodeCode Available	0
Structure Pretraining and Prompt Tuning for Knowledge Graph Transfer	Mar 3, 2023	image-classificationImage Classification	CodeCode Available	1
CHiLS: Zero-Shot Image Classification with Hierarchical Label Sets	Feb 6, 2023	Classificationimage-classification	CodeCode Available	1
Language-Driven Anchors for Zero-Shot Adversarial Robustness	Jan 30, 2023	Adversarial DefenseAdversarial Robustness	CodeCode Available	0
Vision-Language Models Performing Zero-Shot Tasks Exhibit Gender-based Disparities	Jan 26, 2023	image-classificationImage Classification	—Unverified	0
LexLIP: Lexicon-Bottlenecked Language-Image Pre-Training for Large-Scale Image-Text Sparse Retrieval	Jan 1, 2023	image-classificationImage Classification	CodeCode Available	1
RA-CLIP: Retrieval Augmented Contrastive Language-Image Pre-Training	Jan 1, 2023	Classificationimage-classification	—Unverified	0
DiRaC-I: Identifying Diverse and Rare Training Classes for Zero-Shot Learning	Dec 31, 2022	Active LearningAttribute	—Unverified	0
When are Lemons Purple? The Concept Association Bias of Vision-Language Models	Dec 22, 2022	Attributeimage-classification	—Unverified	0
CLIPPO: Image-and-Language Understanding from Pixels Only	Dec 15, 2022	Contrastive Learningimage-classification	—Unverified	0
Reproducible scaling laws for contrastive language-image learning	Dec 14, 2022	Image ClassificationOpen Vocabulary Attribute Detection	CodeCode Available	1
I2MVFormer: Large Language Model Generated Multi-View Document Supervision for Zero-Shot Image Classification	Dec 5, 2022	Classificationimage-classification	—Unverified	0
AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities	Nov 12, 2022	Contrastive LearningCross-Modal Retrieval	CodeCode Available	4
Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese	Nov 2, 2022	Contrastive Learningimage-classification	CodeCode Available	5
Generative Negative Text Replay for Continual Vision-Language Pretraining	Oct 31, 2022	Continual Learningimage-classification	—Unverified	0
Text2Model: Text-based Model Induction for Zero-shot Image Classification	Oct 27, 2022	3D Point Cloud ClassificationAction Recognition	—Unverified	0
General Image Descriptors for Open World Image Retrieval using ViT CLIP	Oct 20, 2022	Image RetrievalRetrieval	CodeCode Available	1
Efficient Multilingual Multi-modal Pre-training through Triple Contrastive Loss	Oct 1, 2022	image-classificationImage Classification	—Unverified	0
I2DFormer: Learning Image to Document Attention for Zero-Shot Image Classification	Sep 21, 2022	Generalized Zero-Shot Learningimage-classification	—Unverified	0
PaLI: A Jointly-Scaled Multilingual Language-Image Model	Sep 14, 2022	DecoderFew-Shot Image Classification	—Unverified	0
What does a platypus look like? Generating customized prompts for zero-shot image classification	Sep 7, 2022	Descriptiveimage-classification	CodeCode Available	2
Zero-Shot Temporal Action Detection via Vision-Language Prompting	Jul 17, 2022	Action DetectionClassification	CodeCode Available	1
DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning	Jul 4, 2022	AttributeContrastive Learning	CodeCode Available	1
Disentangled Ontology Embedding for Zero-shot Learning	Jun 8, 2022	image-classificationImage Classification	CodeCode Available	1
Masked Unsupervised Self-training for Label-free Image Classification	Jun 7, 2022	image-classificationImage Classification	CodeCode Available	1
CCMB: A Large-scale Chinese Cross-modal Benchmark	May 8, 2022	image-classificationImage Classification	CodeCode Available	1
PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model Pretraining	Apr 29, 2022	Image ClassificationLanguage Modeling	—Unverified	0
Zero-Shot Logit Adjustment	Apr 25, 2022	Bayesian InferenceGeneralized Zero-Shot Learning	CodeCode Available	1
ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models	Apr 19, 2022	FairnessFew-Shot Image Classification	CodeCode Available	4
Exploring Hierarchical Graph Representation for Large-Scale Zero-Shot Image Classification	Mar 2, 2022	image-classificationImage Classification	CodeCode Available	1
Wukong: A 100 Million Large-scale Chinese Cross-modal Pre-training Benchmark	Feb 14, 2022	BenchmarkingContrastive Learning	CodeCode Available	0
A Simple Baseline for Open-Vocabulary Semantic Segmentation with Pre-trained Vision-language Model	Dec 29, 2021	image-classificationImage Classification	CodeCode Available	1
A Fistful of Words: Learning Transferable Visual Models from Bag-of-Words Supervision	Dec 27, 2021	ClassificationImage Captioning	—Unverified	0
Soundify: Matching Sound Effects to Video	Dec 17, 2021	Audio GenerationImage Classification	—Unverified	0
LiT: Zero-Shot Transfer with Locked-image text Tuning	Nov 15, 2021	image-classificationImage Classification	CodeCode Available	1
FILIP: Fine-grained Interactive Language-Image Pre-Training	Nov 9, 2021	image-classificationImage Classification	CodeCode Available	1
Benchmarking Knowledge-driven Zero-shot Learning	Jun 29, 2021	AttributeBenchmarking	CodeCode Available	1
Zero-sample surface defect detection and classification based on semantic feedback neural network	Jun 15, 2021	AttributeDefect Detection	—Unverified	0

Show:10 25 50

← PrevPage 2 of 3Next →

All datasets Country211 ICinW ODinW

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	OpenClip H/14 (34B)(Laion2B)	Top-1 accuracy	30.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CLIP (ViT B-32)	Average Score	56.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GLIP (Tiny A)	Average Score	11.4	—	Unverified