Visual Grounding

Visual Grounding (VG) aims to locate the most relevant object or region in an image, based on a natural language query. The query can be a phrase, a sentence, or even a multi-round dialogue. There are three main challenges in VG:

What is the main focus in a query?
How to understand an image?
How to locate an object?

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 141–150 of 571 papers

Title	Date	Tasks	Status	Hype
Joint Top-Down and Bottom-Up Frameworks for 3D Visual Grounding	Oct 21, 2024	3D visual groundingObject	—Unverified	0
VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding	Oct 17, 2024	3D geometry3D visual grounding	CodeCode Available	2
VividMed: Vision Language Model with Versatile Visual Grounding for Medicine	Oct 16, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs	Oct 16, 2024	Visual Grounding	CodeCode Available	0
Context-Infused Visual Grounding for Art	Oct 16, 2024	object-detectionObject Detection	CodeCode Available	0
VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI	Oct 15, 2024	Question AnsweringVideo Question Answering	CodeCode Available	2
Learning to Ground VLMs without Forgetting	Oct 14, 2024	DecoderLanguage Modelling	—Unverified	0
Neural Material Adaptor for Visual Grounding of Intrinsic Dynamics	Oct 10, 2024	Visual Grounding	—Unverified	0
GRAPPA: Generalizing and Adapting Robot Policies via Online Agentic Guidance	Oct 9, 2024	Visual Grounding	—Unverified	0
Context-Aware Command Understanding for Tabletop Scenarios	Oct 8, 2024	Decision MakingVisual Grounding	—Unverified	0

Show:10 25 50

← PrevPage 15 of 58Next →

All datasets RefCOCO testA RefCOCO+ test B RefCoCo val

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	95.3	—	Unverified
2	mPLUG-2	Accuracy (%)	92.8	—	Unverified
3	X2-VLM (large)	Accuracy (%)	92.1	—	Unverified
4	XFM (base)	Accuracy (%)	90.4	—	Unverified
5	X2-VLM (base)	Accuracy (%)	90.3	—	Unverified
6	X-VLM (base)	Accuracy (%)	89	—	Unverified
7	HYDRA	IoU	61.7	—	Unverified
8	HYDRA	IoU	61.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	92	—	Unverified
2	mPLUG-2	Accuracy (%)	86.05	—	Unverified
3	X2-VLM (large)	Accuracy (%)	81.8	—	Unverified
4	XFM (base)	Accuracy (%)	79.8	—	Unverified
5	X2-VLM (base)	Accuracy (%)	78.4	—	Unverified
6	X-VLM (base)	Accuracy (%)	76.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	93.4	—	Unverified
2	mPLUG-2	Accuracy (%)	90.33	—	Unverified
3	X2-VLM (large)	Accuracy (%)	87.6	—	Unverified
4	XFM (base)	Accuracy (%)	86.1	—	Unverified
5	X2-VLM (base)	Accuracy (%)	85.2	—	Unverified
6	X-VLM (base)	Accuracy (%)	84.51	—	Unverified