Visual Prompting

Visual Prompting is the task of streamlining computer vision processes by harnessing the power of prompts, inspired by the breakthroughs of text prompting in NLP. This innovative approach involves using a few visual prompts to swiftly convert an unlabeled dataset into a deployed model, significantly reducing development time for both individual projects and enterprise solutions.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 127 papers

Title	Date	Tasks	Status	Hype
When Does Visual Prompting Outperform Linear Probing for Vision-Language Models? A Likelihood Perspective	Sep 3, 2024	Transfer LearningVisual Prompting	CodeCode Available	0
Open-Vocabulary Action Localization with Iterative Visual Prompting	Aug 30, 2024	Action LocalizationTemporal Action Localization	CodeCode Available	1
Rethinking Sparse Lexical Representations for Image Retrieval in the Age of Rising Multi-Modal Large Language Models	Aug 29, 2024	Data AugmentationImage Retrieval	—Unverified	0
Targeted Visual Prompting for Medical Visual Question Answering	Aug 6, 2024	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	0
Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model	Aug 1, 2024	EgoSchemaLanguage Modeling	—Unverified	0
Chat2Layout: Interactive 3D Furniture Layout with a Multimodal LLM	Jul 31, 2024	In-Context LearningLayout Design	—Unverified	0
EarthMarker: A Visual Prompting Multi-modal Large Language Model for Remote Sensing	Jul 18, 2024	Instruction FollowingLanguage Modeling	CodeCode Available	1
By My Eyes: Grounding Multimodal Large Language Models with Sensor Data via Visual Prompting	Jul 15, 2024	Visual Prompting	CodeCode Available	1
Affordance-Guided Reinforcement Learning via Visual Prompting	Jul 14, 2024	reinforcement-learningReinforcement Learning	—Unverified	0
UICrit: Enhancing Automated Design Evaluation with a UICritique Dataset	Jul 11, 2024	Visual Prompting	CodeCode Available	0
DegustaBot: Zero-Shot Visual Preference Estimation for Personalized Multi-Object Rearrangement	Jul 11, 2024	Object RearrangementVisual Prompting	—Unverified	0
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge	Jul 5, 2024	Instance SegmentationOptical Character Recognition (OCR)	—Unverified	0
Robust Adaptation of Foundation Models with Black-Box Visual Prompting	Jul 4, 2024	Transfer LearningVisual Prompting	—Unverified	0
Towards Open-World Grasping with Large Vision-Language Models	Jun 26, 2024	Robotic GraspingVisual Grounding	—Unverified	0
Dynamic Domains, Dynamic Solutions: DPCore for Continual Test-Time Adaptation	Jun 15, 2024	Test-time AdaptationVisual Prompting	CodeCode Available	1
RoboPoint: A Vision-Language Model for Spatial Affordance Prediction for Robotics	Jun 15, 2024	Language ModelingLanguage Modelling	—Unverified	0
OT-VP: Optimal Transport-guided Visual Prompting for Test-Time Adaptation	Jun 12, 2024	Prompt LearningTest-time Adaptation	CodeCode Available	1
Exploring the Zero-Shot Capabilities of Vision-Language Models for Improving Gaze Following	Jun 6, 2024	In-Context LearningVisual Prompting	—Unverified	0
Visual-Text Cross Alignment: Refining the Similarity Score in Vision-Language Models	Jun 5, 2024	Few-Shot LearningLanguage Modeling	CodeCode Available	2
Learning Visual Prompts for Guiding the Attention of Vision Transformers	Jun 5, 2024	Visual Prompting	—Unverified	0
Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model	May 16, 2024	Image InpaintingIn-Context Learning	—Unverified	0
MoVL:Exploring Fusion Strategies for the Domain-Adaptive Application of Pretrained Models in Medical Imaging Tasks	May 13, 2024	image-classificationImage Classification	—Unverified	0
Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning	May 9, 2024	parameter-efficient fine-tuningVisual Prompting	CodeCode Available	2
Open-Set Video-based Facial Expression Recognition with Human Expression-sensitive Prompting	Apr 26, 2024	Facial Expression RecognitionMulti-Task Learning	—Unverified	0
Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models	Apr 19, 2024	Language ModelingLanguage Modelling	CodeCode Available	4

Show:10 25 50

← PrevPage 3 of 6Next →

No leaderboard results yet.