Visual Prompt Tuning

Visual Prompt Tuning(VPT) only introduces a small amount of task-specific learnable parameters into the input space while freezing the entire pre-trained Transformer backbone during downstream training. In practice, these additional parameters are simply prepended into the input sequence of each Transformer layer and learned together with a linear head during fine-tuning. VPT is especially effective in the low-data regime, and maintains its advantage across data scales. Finally, VPT is competitive for a range of Transformer scales and designs (ViTBase/Large/Huge, Swin). Put together, the results suggest that VPT is one of the most effective ways of adapting ever-growing vision backbones.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 70 papers

Title	Date	Tasks	Status	Hype
Visual Prompt Tuning	Mar 23, 2022	Image ClassificationLong-tail Learning	CodeCode Available	3
Prompt-CAM: Making Vision Transformers Interpretable for Fine-Grained Analysis	Jan 1, 2025	Visual Prompt Tuning	CodeCode Available	2
ECLIPSE: Efficient Continual Learning in Panoptic Segmentation with Visual Prompt Tuning	Mar 29, 2024	Continual LearningContinual Panoptic Segmentation	CodeCode Available	2
CoLLaVO: Crayon Large Language and Vision mOdel	Feb 17, 2024	Large Language Modelmodel	CodeCode Available	2
Prompt-CAM: A Simpler Interpretable Transformer for Fine-Grained Analysis	Jan 16, 2025	Explainable Artificial Intelligence (XAI)Explainable Models	CodeCode Available	2
Multitask Vision-Language Prompt Tuning	Nov 21, 2022	Visual Prompt Tuning	CodeCode Available	1
Online Class Incremental Learning on Stochastic Blurry Task Boundary via Mask and Visual Prompt Tuning	Aug 18, 2023	class-incremental learningClass Incremental Learning	CodeCode Available	1
CVPT: Cross-Attention help Visual Prompt Tuning adapt visual task	Aug 27, 2024	parameter-efficient fine-tuningVisual Prompt Tuning	CodeCode Available	1
DA-VPT: Semantic-Guided Visual Prompt Tuning for Vision Transformers	May 29, 2025	Metric Learningparameter-efficient fine-tuning	CodeCode Available	1
Facing the Elephant in the Room: Visual Prompt Tuning or Full Finetuning?	Jan 23, 2024	Transfer LearningVisual Prompt Tuning	CodeCode Available	1
Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model	Aug 17, 2022	General KnowledgeLanguage Modelling	CodeCode Available	1
Visual Prompt Tuning for Generative Transfer Learning	Oct 3, 2022	Image GenerationTransfer Learning	CodeCode Available	1
CoDA: Instructive Chain-of-Domain Adaptation with Severity-Aware Visual Prompt Tuning	Mar 26, 2024	Domain AdaptationSemantic Segmentation	CodeCode Available	1
Q-Adapt: Adapting LMM for Visual Quality Assessment with Progressive Instruction Tuning	Apr 2, 2025	AttributeImage Quality Assessment	CodeCode Available	1
Understanding Zero-Shot Adversarial Robustness for Large-Scale Models	Dec 14, 2022	Adversarial RobustnessContrastive Learning	CodeCode Available	1
SA^2VP: Spatially Aligned-and-Adapted Visual Prompt	Dec 16, 2023	image-classificationImage Classification	CodeCode Available	1
Uncertainty-aware State Space Transformer for Egocentric 3D Hand Trajectory Forecasting	Jul 17, 2023	3D Human Pose TrackingTrajectory Forecasting	CodeCode Available	1
Unlocking the Potential of Prompt-Tuning in Bridging Generalized and Personalized Federated Learning	Oct 27, 2023	Federated LearningPersonalized Federated Learning	CodeCode Available	1
TAI++: Text as Image for Multi-Label Image Classification by Co-Learning Transferable Prompt	May 11, 2024	Diversityimage-classification	CodeCode Available	1
Improving Visual Prompt Tuning by Gaussian Neighborhood Minimization for Long-Tailed Visual Recognition	Oct 28, 2024	Long-tail LearningVisual Prompt Tuning	CodeCode Available	1
Improving Visual Prompt Tuning for Self-supervised Vision Transformers	Jun 8, 2023	image-classificationImage Classification	CodeCode Available	1
TransTIC: Transferring Transformer-based Image Compression from Human Perception to Machine Perception	Jun 8, 2023	DecoderImage Compression	CodeCode Available	1
TSP-Transformer: Task-Specific Prompts Boosted Transformer for Holistic Scene Understanding	Nov 6, 2023	Boundary DetectionDepth Estimation	CodeCode Available	1
Visual Fourier Prompt Tuning	Nov 2, 2024	Visual Prompt Tuning	CodeCode Available	1
Instance-aware Dynamic Prompt Tuning for Pre-trained Point Cloud Models	Apr 14, 2023	3D Parameter-Efficient Fine-Tuning for Classification3D Point Cloud Classification	CodeCode Available	1
Learning Disentangled Prompts for Compositional Image Synthesis	Jun 1, 2023	Domain AdaptationImage Generation	CodeCode Available	1
Visual Prompt Tuning in Null Space for Continual Learning	Jun 9, 2024	Continual LearningVisual Prompt Tuning	CodeCode Available	1
E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning	Jul 25, 2023	Visual Prompt Tuning	CodeCode Available	1
Unified Vision and Language Prompt Learning	Oct 13, 2022	Domain GeneralizationFew-Shot Learning	CodeCode Available	1
VPA: Fully Test-Time Visual Prompt Adaptation	Sep 26, 2023	Domain AdaptationPseudo Label	—Unverified	0
Adaptive Prompt Tuning: Vision Guided Prompt Tuning with Cross-Attention for Fine-Grained Few-Shot Learning	Dec 19, 2024	Few-Shot LearningVisual Prompt Tuning	—Unverified	0
Adaptive Prompt: Unlocking the Power of Visual Prompt Tuning	Jan 31, 2025	Mixture-of-ExpertsVisual Prompt Tuning	—Unverified	0
AdMiT: Adaptive Multi-Source Tuning in Dynamic Environments	Jan 1, 2025	Visual Prompt Tuning	—Unverified	0
Correlative and Discriminative Label Grouping for Multi-Label Visual Prompt Tuning	Jan 1, 2025	image-classificationImage Classification	—Unverified	0
Defending Multimodal Backdoored Models by Repulsive Visual Prompt Tuning	Dec 29, 2024	backdoor defenseContrastive Learning	—Unverified	0
Disentangled Prompt Representation for Domain Generalization	Jan 1, 2024	Domain GeneralizationLanguage Modelling	—Unverified	0
Do We Really Need a Large Number of Visual Prompts?	May 26, 2023	Transfer LearningVisual Prompt Tuning	—Unverified	0
Dynamic Visual Prompt Tuning for Parameter Efficient Transfer Learning	Sep 12, 2023	Transfer LearningVisual Prompt Tuning	—Unverified	0
End-to-end Multi-source Visual Prompt Tuning for Survival Analysis in Whole Slide Images	Sep 5, 2024	DecoderSurvival Analysis	—Unverified	0
Exploring Interpretability for Visual Prompt Tuning with Hierarchical Concepts	Mar 8, 2025	Visual Prompt Tuning	—Unverified	0
Fair-VPT: Fair Visual Prompt Tuning for Image Classification	Jan 1, 2024	Contrastive LearningDisentanglement	—Unverified	0
Gradient-Regulated Meta-Prompt Learning for Generalizable Vision-Language Models	Mar 12, 2023	Domain GeneralizationFew-Shot Learning	—Unverified	0
Harnessing Large Language and Vision-Language Models for Robust Out-of-Distribution Detection	Jan 9, 2025	Out-of-Distribution DetectionOut of Distribution (OOD) Detection	—Unverified	0
iVPT: Improving Task-relevant Information Sharing in Visual Prompt Tuning by Cross-layer Dynamic Connection	Apr 8, 2024	image-classificationImage Classification	—Unverified	0
LoGoPrompt: Synthetic Text Images Can Be Good Visual Prompts for Vision-Language Models	Sep 3, 2023	Domain GeneralizationFew-Shot Learning	—Unverified	0
LSPT: Long-term Spatial Prompt Tuning for Visual Representation Learning	Feb 27, 2024	Representation LearningVisual Prompt Tuning	—Unverified	0
MedFocusCLIP : Improving few shot classification in medical datasets using pixel wise attention	Jan 7, 2025	ClassificationFine-Grained Image Classification	—Unverified	0
MVP: Meta Visual Prompt Tuning for Few-Shot Remote Sensing Image Scene Classification	Sep 17, 2023	Data AugmentationDiversity	—Unverified	0
Open Vocabulary Semantic Scene Sketch Understanding	Dec 18, 2023	DisentanglementVisual Prompt Tuning	—Unverified	0
Probing the Efficacy of Federated Parameter-Efficient Fine-Tuning of Vision Transformers for Medical Image Classification	Jul 16, 2024	Federated Learningimage-classification	—Unverified	0

Show:10 25 50

← PrevPage 1 of 2Next →

All datasets FGVC VTAB-1k(Natural<7>)VTAB-1k(Specialized<4>)VTAB-1k(Structured<8>)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SPT-Deep(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	86	—	Unverified
2	SPT-Shallow(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	84.08	—	Unverified
3	SPT-Deep(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	83.26	—	Unverified
4	VPT-Deep(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	83.12	—	Unverified
5	GateVPT(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	83	—	Unverified
6	VPT-Shallow (ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	79.26	—	Unverified
7	SPT-Shallow(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	73.95	—	Unverified
8	GateVPT(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	73.39	—	Unverified
9	VPT-Deep (ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	72.02	—	Unverified
10	VPT-Shallow (ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	57.84	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SPT-Deep(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	76.2	—	Unverified
2	GateVPT(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	74.84	—	Unverified
3	SPT-Shallow(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	74.47	—	Unverified
4	VPT-Deep(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	70.27	—	Unverified
5	VPT-Shallow(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	67.34	—	Unverified
6	SPT-Deep(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	67.19	—	Unverified
7	SPT-Shallow(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	62.53	—	Unverified
8	GateVPT(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	47.61	—	Unverified
9	VPT-Shallow(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	39.96	—	Unverified
10	VPT-Deep(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	36.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SPT-Deep(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	84.95	—	Unverified
2	SPT-Shallow(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	83.93	—	Unverified
3	GateVPT(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	83.38	—	Unverified
4	SPT-Deep(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	83.15	—	Unverified
5	VPT-Deep(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	83.04	—	Unverified
6	VPT-Shallow(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	82.26	—	Unverified
7	SPT-Shallow(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	80.9	—	Unverified
8	GateVPT(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	76.86	—	Unverified
9	VPT-Shallow(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	69.65	—	Unverified
10	VPT-Deep(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	60.61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SPT-Deep(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	59.23	—	Unverified
2	SPT-Deep(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	58.36	—	Unverified
3	SPT-Shallow(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	55.16	—	Unverified
4	SPT-Shallow(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	53.46	—	Unverified
5	GateVPT(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	49.1	—	Unverified
6	VPT-Deep(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	42.38	—	Unverified
7	VPT-Shallow(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)	Mean Accuracy	37.55	—	Unverified
8	GateVPT(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	36.8	—	Unverified
9	VPT-Shallow(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	27.5	—	Unverified
10	VPT-Deep(ViT-B/16_MAE_pretrained_ImageNet-1K)	Mean Accuracy	26.57	—	Unverified