Consistency-guided Prompt Learning for Vision-Language Models

2023-06-01Code Available1· sign in to hype

Shuvendu Roy, Ali Etemad

Code Available — Be the first to reproduce this paper.

Code

github.com/shuvenduroy/coprompt
OfficialIn paperpytorch★ 86
github.com/ShuvenduRoy/FER_TL_PipelineTraining
none★ 22

Abstract

We propose Consistency-guided Prompt learning (CoPrompt), a new fine-tuning method for vision-language models. Our approach improves the generalization of large foundation models when fine-tuned on downstream tasks in a few-shot setting. The basic idea of CoPrompt is to enforce a consistency constraint in the prediction of the trainable and pre-trained models to prevent overfitting on the downstream task. Additionally, we introduce the following two components into our consistency constraint to further boost the performance: enforcing consistency on two perturbed inputs and combining two dominant paradigms of tuning, prompting and adapter. Enforcing consistency on perturbed input serves to further regularize the consistency constraint, thereby improving generalization. Moreover, the integration of adapters and prompts not only enhances performance on downstream tasks but also offers increased tuning flexibility in both input and output spaces. This facilitates more effective adaptation to downstream tasks in a few-shot learning setting. Experiments show that CoPrompt outperforms existing methods on a range of evaluation suites, including base-to-novel generalization, domain generalization, and cross-dataset evaluation. On generalization, CoPrompt improves the state-of-the-art on zero-shot tasks and the overall harmonic mean over 11 datasets. Detailed ablation studies show the effectiveness of each of the components in CoPrompt. We make our code available at https://github.com/ShuvenduRoy/CoPrompt.

Tasks

Domain Generalization Few-Shot Learning Prompt Engineering Prompt Learning

Benchmark Results

Dataset	Model	Metric	Claimed	Verified	Status
Caltech-101	CoPrompt	Harmonic mean	96.55	—	Unverified
DTD	CoPrompt	Harmonic mean	72.79	—	Unverified
EuroSAT	CoPrompt	Harmonic mean	85.84	—	Unverified
FGVC-Aircraft	CoPrompt	Harmonic mean	39.76	—	Unverified
Food-101	CoPrompt	Harmonic mean	91.4	—	Unverified
ImageNet	CoPrompt	Harmonic mean	74.33	—	Unverified
ImageNet-A	CoPrompt	Top-1 accuracy %	50.5	—	Unverified
ImageNet-R	CoPrompt	Top-1 accuracy %	77.51	—	Unverified
ImageNet-S	CoPrompt	Top-1 accuracy %	49.43	—	Unverified
Oxford 102 Flower	CoPrompt	Harmonic mean	85.71	—	Unverified
Oxford-IIIT Pet Dataset	CoPrompt	Harmonic mean	96.87	—	Unverified
Stanford Cars	CoPrompt	Harmonic mean	75.66	—	Unverified
SUN397	CoPrompt	Harmonic mean	81.31	—	Unverified
UCF101	CoPrompt	Harmonic mean	83.07	—	Unverified

Consistency-guided Prompt Learning for Vision-Language Models

Code

Abstract

Tasks

Benchmark Results

Reproductions