Visual Grounding

Visual Grounding (VG) aims to locate the most relevant object or region in an image, based on a natural language query. The query can be a phrase, a sentence, or even a multi-round dialogue. There are three main challenges in VG:

What is the main focus in a query?
How to understand an image?
How to locate an object?

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–375 of 571 papers

Title	Date	Tasks	Status
From Objects to Anywhere: A Holistic Benchmark for Multi-level Visual Grounding in 3D Scenes	Jun 5, 2025	3D visual groundingObject	—Unverified
From Local Concepts to Universals: Evaluating the Multicultural Understanding of Vision-Language Models	Jun 28, 2024	DiversityRetrieval	—Unverified
Parallel Vertex Diffusion for Unified Visual Grounding	Mar 13, 2023	Visual Grounding	—Unverified
Parameter-Efficient Fine-Tuning Medical Multimodal Large Language Models for Medical Visual Grounding	Oct 31, 2024	parameter-efficient fine-tuningVisual Grounding	—Unverified
PD-APE: A Parallel Decoding Framework with Adaptive Position Encoding for 3D Visual Grounding	Jul 19, 2024	3D visual groundingAttribute	—Unverified
Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning	Jun 5, 2025	MathVisual Grounding	—Unverified
Visual Prompting in Multimodal Large Language Models: A Survey	Sep 5, 2024	In-Context LearningPrompt Learning	—Unverified
Context-Aware Indoor Point Cloud Object Generation through User Instructions	Nov 26, 2023	PositionVisual Grounding	—Unverified
Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models	Aug 15, 2024	Pose EstimationVisual Grounding	—Unverified
Focusing On Targets For Improving Weakly Supervised Visual Grounding	Feb 22, 2023	Dependency ParsingObject	—Unverified
Programming with Pixels: Computer-Use Meets Software Engineering	Feb 24, 2025	Visual Grounding	—Unverified
FlowVQA: Mapping Multimodal Logic in Visual Question Answering with Flowcharts	Jun 27, 2024	Decision MakingLogical Reasoning	—Unverified
Visual Reference Resolution using Attention Memory for Visual Dialog	Sep 23, 2017	Parameter PredictionQuestion Answering	—Unverified
Propagating Over Phrase Relations for One-Stage Visual Grounding	Aug 1, 2020	Phrase GroundingRelational Reasoning	—Unverified
ProxyTransformation: Preshaping Point Cloud Manifold With Proxy Attention For 3D Visual Grounding	Feb 26, 2025	3D visual groundingVisual Grounding	—Unverified
FLORA: Formal Language Model Enables Robust Training-free Zero-shot Object Referring Analysis	Jan 17, 2025	Bayesian InferenceLanguage Modeling	—Unverified
Fine-Grained Spatial and Verbal Losses for 3D Visual Grounding	Nov 5, 2024	3D visual groundingVisual Grounding	—Unverified
ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning	Mar 30, 2025	3D visual groundingFeature Splatting	—Unverified
FindIt: Generalized Localization with Natural Language Queries	Mar 31, 2022	Natural Language QueriesObject	—Unverified
Redemption Score: An Evaluation Framework to Rank Image Captions While Redeeming Image Semantics and Language Pragmatics	May 22, 2025	Image Captioningtext similarity	—Unverified
Reducing Language Biases in Visual Question Answering with Visually-Grounded Question Encoder	Jul 13, 2020	Question AnsweringVisual Grounding	—Unverified
Finding "It": Weakly-Supervised Reference-Aware Visual Grounding in Instructional Videos	Jun 1, 2018	Multiple Instance LearningSentence	—Unverified
ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations	Jan 24, 2025	DecoderObject	—Unverified
Referencing Where to Focus: Improving VisualGrounding with Referential Query	Dec 26, 2024	DecoderVisual Grounding	—Unverified
Few-Shot Visual Grounding for Natural Human-Robot Interaction	Mar 17, 2021	Visual Grounding	—Unverified

Show:10 25 50

← PrevPage 15 of 23Next →

All datasets RefCOCO testA RefCOCO+ test B RefCoCo val

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	95.3	—	Unverified
2	mPLUG-2	Accuracy (%)	92.8	—	Unverified
3	X2-VLM (large)	Accuracy (%)	92.1	—	Unverified
4	XFM (base)	Accuracy (%)	90.4	—	Unverified
5	X2-VLM (base)	Accuracy (%)	90.3	—	Unverified
6	X-VLM (base)	Accuracy (%)	89	—	Unverified
7	HYDRA	IoU	61.7	—	Unverified
8	HYDRA	IoU	61.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	92	—	Unverified
2	mPLUG-2	Accuracy (%)	86.05	—	Unverified
3	X2-VLM (large)	Accuracy (%)	81.8	—	Unverified
4	XFM (base)	Accuracy (%)	79.8	—	Unverified
5	X2-VLM (base)	Accuracy (%)	78.4	—	Unverified
6	X-VLM (base)	Accuracy (%)	76.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	93.4	—	Unverified
2	mPLUG-2	Accuracy (%)	90.33	—	Unverified
3	X2-VLM (large)	Accuracy (%)	87.6	—	Unverified
4	XFM (base)	Accuracy (%)	86.1	—	Unverified
5	X2-VLM (base)	Accuracy (%)	85.2	—	Unverified
6	X-VLM (base)	Accuracy (%)	84.51	—	Unverified