Visual Prompting

Visual Prompting is the task of streamlining computer vision processes by harnessing the power of prompts, inspired by the breakthroughs of text prompting in NLP. This innovative approach involves using a few visual prompts to swiftly convert an unlabeled dataset into a deployed model, significantly reducing development time for both individual projects and enterprise solutions.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 127 papers

Title	Date	Tasks	Status	Hype
EarthMarker: A Visual Prompting Multi-modal Large Language Model for Remote Sensing	Jul 18, 2024	Instruction FollowingLanguage Modeling	CodeCode Available	1
UPGPT: Universal Diffusion Model for Person Image Generation, Editing and Pose Transfer	Apr 18, 2023	DisentanglementImage Generation	CodeCode Available	1
Token Coordinated Prompt Attention is Needed for Visual Prompting	May 5, 2025	DiversityVisual Prompting	CodeCode Available	1
Text-Visual Prompting for Efficient 2D Temporal Video Grounding	Mar 9, 2023	SentenceVideo Grounding	CodeCode Available	1
Tune-An-Ellipse: CLIP Has Potential to Find What You Want	Jan 1, 2024	ObjectReferring Expression	CodeCode Available	1
ViscoNet: Bridging and Harmonizing Visual and Textual Conditioning for ControlNet	Dec 5, 2023	Image GenerationPerson Re-Identification	CodeCode Available	1
Scaffolding Coordinates to Promote Vision-Language Coordination in Large Multi-Modal Models	Feb 19, 2024	Visual Prompting	CodeCode Available	1
Improving Visual Object Tracking through Visual Prompting	Sep 27, 2024	Object	CodeCode Available	1
OT-VP: Optimal Transport-guided Visual Prompting for Test-Time Adaptation	Jun 12, 2024	Prompt LearningTest-time Adaptation	CodeCode Available	1
EZ-CLIP: Efficient Zeroshot Video Action Recognition	Dec 13, 2023	Action RecognitionGPU	CodeCode Available	1
By My Eyes: Grounding Multimodal Large Language Models with Sensor Data via Visual Prompting	Jul 15, 2024	Visual Prompting	CodeCode Available	1
Finding Visual Task Vectors	Apr 8, 2024	Visual Prompting	CodeCode Available	1
Fine-Grained Visual Prompting	Jun 7, 2023	Visual Prompting	CodeCode Available	1
Exploring the Transferability of Visual Prompting for Multimodal Large Language Models	Apr 17, 2024	HallucinationMultimodal Reasoning	CodeCode Available	1
Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning	Dec 4, 2024	Multimodal Large Language ModelVideo Understanding	CodeCode Available	1
LoR-VP: Low-Rank Visual Prompting for Efficient Vision Model Adaptation	Feb 2, 2025	Inductive BiasVisual Prompting	CodeCode Available	1
Open-Vocabulary Action Localization with Iterative Visual Prompting	Aug 30, 2024	Action LocalizationTemporal Action Localization	CodeCode Available	1
GeoSAM: Fine-tuning SAM with Multi-Modal Prompts for Mobility Infrastructure Segmentation	Nov 19, 2023	Image SegmentationLarge Language Model	CodeCode Available	1
Selective Visual Prompting in Vision Mamba	Dec 12, 2024	MambaState Space Models	CodeCode Available	1
Diversity-Aware Meta Visual Prompting	Mar 14, 2023	DiversityVisual Prompting	CodeCode Available	1
Vision Graph Prompting via Semantic Low-Rank Decomposition	May 7, 2025	parameter-efficient fine-tuningVisual Prompting	CodeCode Available	1
Explore until Confident: Efficient Exploration for Embodied Question Answering	Mar 23, 2024	Conformal PredictionEfficient Exploration	—Unverified	0
BLINK: Multimodal Large Language Models Can See but Not Perceive	Apr 18, 2024	Depth EstimationMultiple-choice	—Unverified	0
End-to-end Open-vocabulary Video Visual Relationship Detection using Multi-modal Prompting	Sep 19, 2024	DecoderObject	—Unverified	0
Affordance-Guided Reinforcement Learning via Visual Prompting	Jul 14, 2024	reinforcement-learningReinforcement Learning	—Unverified	0

Show:10 25 50

← PrevPage 2 of 6Next →

No leaderboard results yet.