Visual Grounding

Visual Grounding (VG) aims to locate the most relevant object or region in an image, based on a natural language query. The query can be a phrase, a sentence, or even a multi-round dialogue. There are three main challenges in VG:

What is the main focus in a query?
How to understand an image?
How to locate an object?

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 571 papers

Title	Date	Tasks	Status
From Objects to Anywhere: A Holistic Benchmark for Multi-level Visual Grounding in 3D Scenes	Jun 5, 2025	3D visual groundingObject	—Unverified
From Local Concepts to Universals: Evaluating the Multicultural Understanding of Vision-Language Models	Jun 28, 2024	DiversityRetrieval	—Unverified
Parallel Vertex Diffusion for Unified Visual Grounding	Mar 13, 2023	Visual Grounding	—Unverified
Parameter-Efficient Fine-Tuning Medical Multimodal Large Language Models for Medical Visual Grounding	Oct 31, 2024	parameter-efficient fine-tuningVisual Grounding	—Unverified
PD-APE: A Parallel Decoding Framework with Adaptive Position Encoding for 3D Visual Grounding	Jul 19, 2024	3D visual groundingAttribute	—Unverified
Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning	Jun 5, 2025	MathVisual Grounding	—Unverified
Visual Prompting in Multimodal Large Language Models: A Survey	Sep 5, 2024	In-Context LearningPrompt Learning	—Unverified
Context-Aware Indoor Point Cloud Object Generation through User Instructions	Nov 26, 2023	PositionVisual Grounding	—Unverified
Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models	Aug 15, 2024	Pose EstimationVisual Grounding	—Unverified
Focusing On Targets For Improving Weakly Supervised Visual Grounding	Feb 22, 2023	Dependency ParsingObject	—Unverified
Programming with Pixels: Computer-Use Meets Software Engineering	Feb 24, 2025	Visual Grounding	—Unverified
FlowVQA: Mapping Multimodal Logic in Visual Question Answering with Flowcharts	Jun 27, 2024	Decision MakingLogical Reasoning	—Unverified
Visual Reference Resolution using Attention Memory for Visual Dialog	Sep 23, 2017	Parameter PredictionQuestion Answering	—Unverified
Propagating Over Phrase Relations for One-Stage Visual Grounding	Aug 1, 2020	Phrase GroundingRelational Reasoning	—Unverified
ProxyTransformation: Preshaping Point Cloud Manifold With Proxy Attention For 3D Visual Grounding	Feb 26, 2025	3D visual groundingVisual Grounding	—Unverified
FLORA: Formal Language Model Enables Robust Training-free Zero-shot Object Referring Analysis	Jan 17, 2025	Bayesian InferenceLanguage Modeling	—Unverified
Fine-Grained Spatial and Verbal Losses for 3D Visual Grounding	Nov 5, 2024	3D visual groundingVisual Grounding	—Unverified
ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning	Mar 30, 2025	3D visual groundingFeature Splatting	—Unverified
FindIt: Generalized Localization with Natural Language Queries	Mar 31, 2022	Natural Language QueriesObject	—Unverified
Redemption Score: An Evaluation Framework to Rank Image Captions While Redeeming Image Semantics and Language Pragmatics	May 22, 2025	Image Captioningtext similarity	—Unverified
Reducing Language Biases in Visual Question Answering with Visually-Grounded Question Encoder	Jul 13, 2020	Question AnsweringVisual Grounding	—Unverified
Finding "It": Weakly-Supervised Reference-Aware Visual Grounding in Instructional Videos	Jun 1, 2018	Multiple Instance LearningSentence	—Unverified
ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations	Jan 24, 2025	DecoderObject	—Unverified
Referencing Where to Focus: Improving VisualGrounding with Referential Query	Dec 26, 2024	DecoderVisual Grounding	—Unverified
Few-Shot Visual Grounding for Natural Human-Robot Interaction	Mar 17, 2021	Visual Grounding	—Unverified
Joint Visual Grounding with Language Scene Graphs	Jun 9, 2019	Referring ExpressionVisual Grounding	—Unverified
Fast visual grounding in interaction: bringing few-shot learning with neural networks to an interactive robot	Jun 1, 2020	Few-Shot LearningTransfer Learning	—Unverified
Referring to Screen Texts with Voice Assistants	Jun 10, 2023	NavigateVisual Grounding	—Unverified
FACET: Fairness in Computer Vision Evaluation Benchmark	Aug 31, 2023	Fairnessimage-classification	—Unverified
Exploring Context, Attention and Audio Features for Audio Visual Scene-Aware Dialog	Dec 20, 2019	Audio ClassificationVisual Grounding	—Unverified
Explainable Video Entailment With Grounded Visual Evidence	Jan 1, 2021	Visual Grounding	—Unverified
Learning to Assemble Neural Module Tree Networks for Visual Grounding	Dec 8, 2018	Dependency ParsingNatural Language Visual Grounding	—Unverified
AIFit: Automatic 3D Human-Interpretable Feedback Models for Fitness Training	Jun 19, 2021	Visual Grounding	—Unverified
VisualTrap: A Stealthy Backdoor Attack on GUI Agents via Visual Grounding Manipulation	Jul 9, 2025	Backdoor AttackVisual Grounding	—Unverified
ZALM3: Zero-Shot Enhancement of Vision-Language Alignment via In-Context Information in Multi-Turn Multimodal Medical Dialogue	Sep 26, 2024	Medical Visual Question AnsweringQuestion Answering	—Unverified
Retrieve, Caption, Generate: Visual Grounding for Enhancing Commonsense in Text Generation Models	Sep 8, 2021	Concept-To-Text GenerationSpecificity	—Unverified
Revisiting Data Auditing in Large Vision-Language Models	Apr 25, 2025	Visual Grounding	—Unverified
Revisiting Visual Grounding	Apr 3, 2019	Image RetrievalRetrieval	—Unverified
AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations	Apr 10, 2025	Spatial ReasoningVisual Grounding	—Unverified
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling	Dec 6, 2024	document understandingHallucination	—Unverified
Expand BERT Representation with Visual Information via Grounded Language Learning with Multimodal Partial Alignment	Dec 4, 2023	Grounded language learningLanguage Modeling	—Unverified
Enhancing Abnormality Grounding for Vision Language Models with Knowledge Descriptions	Mar 5, 2025	Anomaly DetectionVisual Grounding	—Unverified
Right Place, Right Time! Dynamizing Topological Graphs for Embodied Navigation	Mar 14, 2024	Decision MakingLanguage Modeling	—Unverified
Extending CLIP's Image-Text Alignment to Referring Image Segmentation	Jun 14, 2023	Image SegmentationReferring Expression Segmentation	—Unverified
RLS3: RL-Based Synthetic Sample Selection to Enhance Spatial Reasoning in Vision-Language Models for Indoor Autonomous Perception	Jan 31, 2025	Reinforcement Learning (RL)Spatial Reasoning	—Unverified
RoViST: Learning Robust Metrics for Visual Storytelling	Dec 17, 2021	SentenceText Generation	—Unverified
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks	Oct 7, 2024	Information RetrievalLanguage Modeling	—Unverified
VLMAE: Vision-Language Masked Autoencoder	Aug 19, 2022	Image-text RetrievalLanguage Modeling	—Unverified
RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing Data	Oct 23, 2022	Image CaptioningImage-text Retrieval	—Unverified
RSVP: Reasoning Segmentation via Visual Prompting and Multi-modal Chain-of-Thought	Jun 4, 2025	Multimodal ReasoningReasoning Segmentation	—Unverified

Show:10 25 50

← PrevPage 8 of 12Next →

All datasets RefCOCO testA RefCOCO+ test B RefCoCo val

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	95.3	—	Unverified
2	mPLUG-2	Accuracy (%)	92.8	—	Unverified
3	X2-VLM (large)	Accuracy (%)	92.1	—	Unverified
4	XFM (base)	Accuracy (%)	90.4	—	Unverified
5	X2-VLM (base)	Accuracy (%)	90.3	—	Unverified
6	X-VLM (base)	Accuracy (%)	89	—	Unverified
7	HYDRA	IoU	61.7	—	Unverified
8	HYDRA	IoU	61.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	92	—	Unverified
2	mPLUG-2	Accuracy (%)	86.05	—	Unverified
3	X2-VLM (large)	Accuracy (%)	81.8	—	Unverified
4	XFM (base)	Accuracy (%)	79.8	—	Unverified
5	X2-VLM (base)	Accuracy (%)	78.4	—	Unverified
6	X-VLM (base)	Accuracy (%)	76.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	93.4	—	Unverified
2	mPLUG-2	Accuracy (%)	90.33	—	Unverified
3	X2-VLM (large)	Accuracy (%)	87.6	—	Unverified
4	XFM (base)	Accuracy (%)	86.1	—	Unverified
5	X2-VLM (base)	Accuracy (%)	85.2	—	Unverified
6	X-VLM (base)	Accuracy (%)	84.51	—	Unverified