Visual Prompting

Visual Prompting is the task of streamlining computer vision processes by harnessing the power of prompts, inspired by the breakthroughs of text prompting in NLP. This innovative approach involves using a few visual prompts to swiftly convert an unlabeled dataset into a deployed model, significantly reducing development time for both individual projects and enterprise solutions.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 127 papers

Title	Date	Tasks	Status	Hype
Segment Anything	Apr 5, 2023	Event-based Object SegmentationImage Segmentation	CodeCode Available	5
GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models	Jan 2, 2025	Scene Understandingtext annotation	CodeCode Available	4
Visual In-Context Prompting	Nov 22, 2023	DecoderSegmentation	CodeCode Available	4
Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models	Apr 19, 2024	Language ModelingLanguage Modelling	CodeCode Available	4
Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V	Oct 17, 2023	Interactive SegmentationReferring Expression	CodeCode Available	4
Generative Multimodal Models are In-Context Learners	Dec 20, 2023	In-Context LearningPersonalized Image Generation	CodeCode Available	3
Visual Prompting via Image Inpainting	Sep 1, 2022	ColorizationEdge Detection	CodeCode Available	2
Explicit Visual Prompting for Low-Level Structure Segmentations	Mar 20, 2023	Camouflaged Object SegmentationDefocus Blur Detection	CodeCode Available	2
Chameleon: Fast-slow Neuro-symbolic Lane Topology Extraction	Mar 10, 2025	Autonomous DrivingScene Understanding	CodeCode Available	2
Explicit Visual Prompting for Universal Foreground Segmentations	May 29, 2023	Camouflaged Object SegmentationDefocus Blur Detection	CodeCode Available	2
Visual-Text Cross Alignment: Refining the Similarity Score in Vision-Language Models	Jun 5, 2024	Few-Shot LearningLanguage Modeling	CodeCode Available	2
Exploring Visual Prompts for Adapting Large-Scale Models	Mar 31, 2022	Visual Prompting	CodeCode Available	2
Tokenize Anything via Prompting	Dec 14, 2023	DecoderVisual Prompting	CodeCode Available	2
Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning	May 9, 2024	parameter-efficient fine-tuningVisual Prompting	CodeCode Available	2
Attention Prompting on Image for Large Vision-Language Models	Sep 25, 2024	MM-VetVisual Prompting	CodeCode Available	2
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want	Mar 29, 2024	Instruction FollowingLanguage Modelling	CodeCode Available	2
Improved GUI Grounding via Iterative Narrowing	Nov 18, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
BlackVIP: Black-Box Visual Prompting for Robust Transfer Learning	Mar 26, 2023	Transfer LearningVisual Prompting	CodeCode Available	1
Visual Prompting for Generalized Few-shot Segmentation: A Multi-scale Approach	Apr 17, 2024	DecoderGeneralized Few-Shot Semantic Segmentation	CodeCode Available	1
Visual Instruction Inversion: Image Editing via Visual Prompting	Jul 26, 2023	Visual Prompting	CodeCode Available	1
Visual Prompting for Adversarial Robustness	Oct 12, 2022	Adversarial DefenseAdversarial Robustness	CodeCode Available	1
Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective	Dec 3, 2023	Image ClassificationVisual Prompting	CodeCode Available	1
Understanding and Improving Visual Prompting: A Label-Mapping Perspective	Nov 21, 2022	Transfer LearningVisual Prompting	CodeCode Available	1
Dynamic Domains, Dynamic Solutions: DPCore for Continual Test-Time Adaptation	Jun 15, 2024	Test-time AdaptationVisual Prompting	CodeCode Available	1
AutoVP: An Automated Visual Prompting Framework and Benchmark	Oct 12, 2023	image-classificationImage Classification	CodeCode Available	1
EarthMarker: A Visual Prompting Multi-modal Large Language Model for Remote Sensing	Jul 18, 2024	Instruction FollowingLanguage Modeling	CodeCode Available	1
UPGPT: Universal Diffusion Model for Person Image Generation, Editing and Pose Transfer	Apr 18, 2023	DisentanglementImage Generation	CodeCode Available	1
Token Coordinated Prompt Attention is Needed for Visual Prompting	May 5, 2025	DiversityVisual Prompting	CodeCode Available	1
Text-Visual Prompting for Efficient 2D Temporal Video Grounding	Mar 9, 2023	SentenceVideo Grounding	CodeCode Available	1
Tune-An-Ellipse: CLIP Has Potential to Find What You Want	Jan 1, 2024	ObjectReferring Expression	CodeCode Available	1
ViscoNet: Bridging and Harmonizing Visual and Textual Conditioning for ControlNet	Dec 5, 2023	Image GenerationPerson Re-Identification	CodeCode Available	1
Scaffolding Coordinates to Promote Vision-Language Coordination in Large Multi-Modal Models	Feb 19, 2024	Visual Prompting	CodeCode Available	1
Improving Visual Object Tracking through Visual Prompting	Sep 27, 2024	Object	CodeCode Available	1
OT-VP: Optimal Transport-guided Visual Prompting for Test-Time Adaptation	Jun 12, 2024	Prompt LearningTest-time Adaptation	CodeCode Available	1
EZ-CLIP: Efficient Zeroshot Video Action Recognition	Dec 13, 2023	Action RecognitionGPU	CodeCode Available	1
By My Eyes: Grounding Multimodal Large Language Models with Sensor Data via Visual Prompting	Jul 15, 2024	Visual Prompting	CodeCode Available	1
Finding Visual Task Vectors	Apr 8, 2024	Visual Prompting	CodeCode Available	1
Fine-Grained Visual Prompting	Jun 7, 2023	Visual Prompting	CodeCode Available	1
Exploring the Transferability of Visual Prompting for Multimodal Large Language Models	Apr 17, 2024	HallucinationMultimodal Reasoning	CodeCode Available	1
Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning	Dec 4, 2024	Multimodal Large Language ModelVideo Understanding	CodeCode Available	1
LoR-VP: Low-Rank Visual Prompting for Efficient Vision Model Adaptation	Feb 2, 2025	Inductive BiasVisual Prompting	CodeCode Available	1
Open-Vocabulary Action Localization with Iterative Visual Prompting	Aug 30, 2024	Action LocalizationTemporal Action Localization	CodeCode Available	1
GeoSAM: Fine-tuning SAM with Multi-Modal Prompts for Mobility Infrastructure Segmentation	Nov 19, 2023	Image SegmentationLarge Language Model	CodeCode Available	1
Selective Visual Prompting in Vision Mamba	Dec 12, 2024	MambaState Space Models	CodeCode Available	1
Diversity-Aware Meta Visual Prompting	Mar 14, 2023	DiversityVisual Prompting	CodeCode Available	1
Vision Graph Prompting via Semantic Low-Rank Decomposition	May 7, 2025	parameter-efficient fine-tuningVisual Prompting	CodeCode Available	1
Explore until Confident: Efficient Exploration for Embodied Question Answering	Mar 23, 2024	Conformal PredictionEfficient Exploration	—Unverified	0
BLINK: Multimodal Large Language Models Can See but Not Perceive	Apr 18, 2024	Depth EstimationMultiple-choice	—Unverified	0
End-to-end Open-vocabulary Video Visual Relationship Detection using Multi-modal Prompting	Sep 19, 2024	DecoderObject	—Unverified	0
Affordance-Guided Reinforcement Learning via Visual Prompting	Jul 14, 2024	reinforcement-learningReinforcement Learning	—Unverified	0

Show:10 25 50

← PrevPage 1 of 3Next →

No leaderboard results yet.