Visual Prompt Tuning

Visual Prompt Tuning(VPT) only introduces a small amount of task-specific learnable parameters into the input space while freezing the entire pre-trained Transformer backbone during downstream training. In practice, these additional parameters are simply prepended into the input sequence of each Transformer layer and learned together with a linear head during fine-tuning. VPT is especially effective in the low-data regime, and maintains its advantage across data scales. Finally, VPT is competitive for a range of Transformer scales and designs (ViTBase/Large/Huge, Swin). Put together, the results suggest that VPT is one of the most effective ways of adapting ever-growing vision backbones.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11–20 of 70 papers

Title	Date	Tasks	Status	Hype
Learning Disentangled Prompts for Compositional Image Synthesis	Jun 1, 2023	Domain AdaptationImage Generation	CodeCode Available	1
Online Class Incremental Learning on Stochastic Blurry Task Boundary via Mask and Visual Prompt Tuning	Aug 18, 2023	class-incremental learningClass Incremental Learning	CodeCode Available	1
CoDA: Instructive Chain-of-Domain Adaptation with Severity-Aware Visual Prompt Tuning	Mar 26, 2024	Domain AdaptationSemantic Segmentation	CodeCode Available	1
Improving Visual Prompt Tuning by Gaussian Neighborhood Minimization for Long-Tailed Visual Recognition	Oct 28, 2024	Long-tail LearningVisual Prompt Tuning	CodeCode Available	1
Facing the Elephant in the Room: Visual Prompt Tuning or Full Finetuning?	Jan 23, 2024	Transfer LearningVisual Prompt Tuning	CodeCode Available	1
Unlocking the Potential of Prompt-Tuning in Bridging Generalized and Personalized Federated Learning	Oct 27, 2023	Federated LearningPersonalized Federated Learning	CodeCode Available	1
E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning	Jul 25, 2023	Visual Prompt Tuning	CodeCode Available	1
Improving Visual Prompt Tuning for Self-supervised Vision Transformers	Jun 8, 2023	image-classificationImage Classification	CodeCode Available	1
CVPT: Cross-Attention help Visual Prompt Tuning adapt visual task	Aug 27, 2024	parameter-efficient fine-tuningVisual Prompt Tuning	CodeCode Available	1
Multitask Vision-Language Prompt Tuning	Nov 21, 2022	Visual Prompt Tuning	CodeCode Available	1

Show:10 25 50

← PrevPage 2 of 7Next →

All datasets FGVC VTAB-1k(Natural<7>)VTAB-1k(Specialized<4>)VTAB-1k(Structured<8>)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SPT-Deep(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	86	—	Unverified
2	SPT-Shallow(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	84.08	—	Unverified
3	SPT-Deep(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	83.26	—	Unverified
4	VPT-Deep(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	83.12	—	Unverified
5	GateVPT(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	83	—	Unverified
6	VPT-Shallow (ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	79.26	—	Unverified
7	SPT-Shallow(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	73.95	—	Unverified
8	GateVPT(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	73.39	—	Unverified
9	VPT-Deep (ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	72.02	—	Unverified
10	VPT-Shallow (ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	57.84	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SPT-Deep(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	76.2	—	Unverified
2	GateVPT(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	74.84	—	Unverified
3	SPT-Shallow(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	74.47	—	Unverified
4	VPT-Deep(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	70.27	—	Unverified
5	VPT-Shallow(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	67.34	—	Unverified
6	SPT-Deep(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	67.19	—	Unverified
7	SPT-Shallow(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	62.53	—	Unverified
8	GateVPT(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	47.61	—	Unverified
9	VPT-Shallow(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	39.96	—	Unverified
10	VPT-Deep(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	36.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SPT-Deep(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	84.95	—	Unverified
2	SPT-Shallow(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	83.93	—	Unverified
3	GateVPT(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	83.38	—	Unverified
4	SPT-Deep(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	83.15	—	Unverified
5	VPT-Deep(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	83.04	—	Unverified
6	VPT-Shallow(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	82.26	—	Unverified
7	SPT-Shallow(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	80.9	—	Unverified
8	GateVPT(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	76.86	—	Unverified
9	VPT-Shallow(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	69.65	—	Unverified
10	VPT-Deep(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	60.61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SPT-Deep(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	59.23	—	Unverified
2	SPT-Deep(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	58.36	—	Unverified
3	SPT-Shallow(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	55.16	—	Unverified
4	SPT-Shallow(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	53.46	—	Unverified
5	GateVPT(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	49.1	—	Unverified
6	VPT-Deep(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	42.38	—	Unverified
7	VPT-Shallow(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	37.55	—	Unverified
8	GateVPT(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	36.8	—	Unverified
9	VPT-Shallow(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	27.5	—	Unverified
10	VPT-Deep(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	26.57	—	Unverified