Visual Grounding

Visual Grounding (VG) aims to locate the most relevant object or region in an image, based on a natural language query. The query can be a phrase, a sentence, or even a multi-round dialogue. There are three main challenges in VG:

What is the main focus in a query?
How to understand an image?
How to locate an object?

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 531–540 of 571 papers

Title	Date	Tasks	Status
Differentiable Disentanglement Filter: an Application Agnostic Core Concept Discovery Probe	Jul 17, 2019	DisentanglementVisual Grounding	—Unverified
Transfer Learning from Audio-Visual Grounding to Speech Recognition	Jul 9, 2019	speech-recognitionSpeech Recognition	—Unverified
Joint Visual Grounding with Language Scene Graphs	Jun 9, 2019	Referring ExpressionVisual Grounding	—Unverified
Visually Grounded Neural Syntax Acquisition	Jun 7, 2019	Visual Grounding	—Unverified
Learning to Compose and Reason with Language Tree Structures for Visual Grounding	Jun 5, 2019	Visual GroundingVisual Reasoning	—Unverified
On the Contributions of Visual and Textual Supervision in Low-Resource Semantic Speech Retrieval	Apr 24, 2019	RetrievalVisual Grounding	—Unverified
Semantic query-by-example speech search using visual grounding	Apr 15, 2019	RetrievalSemantic Retrieval	CodeCode Available
Modularized Textual Grounding for Counterfactual Resilience	Apr 7, 2019	Attributecounterfactual	CodeCode Available
VQD: Visual Query Detection in Natural Scenes	Apr 4, 2019	Referring ExpressionReferring Expression Comprehension	—Unverified
Revisiting Visual Grounding	Apr 3, 2019	Image RetrievalRetrieval	—Unverified

Show:10 25 50

← PrevPage 54 of 58Next →

All datasets RefCOCO testA RefCOCO+ test B RefCoCo val

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	95.3	—	Unverified
2	mPLUG-2	Accuracy (%)	92.8	—	Unverified
3	X2-VLM (large)	Accuracy (%)	92.1	—	Unverified
4	XFM (base)	Accuracy (%)	90.4	—	Unverified
5	X2-VLM (base)	Accuracy (%)	90.3	—	Unverified
6	X-VLM (base)	Accuracy (%)	89	—	Unverified
7	HYDRA	IoU	61.7	—	Unverified
8	HYDRA	IoU	61.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	92	—	Unverified
2	mPLUG-2	Accuracy (%)	86.05	—	Unverified
3	X2-VLM (large)	Accuracy (%)	81.8	—	Unverified
4	XFM (base)	Accuracy (%)	79.8	—	Unverified
5	X2-VLM (base)	Accuracy (%)	78.4	—	Unverified
6	X-VLM (base)	Accuracy (%)	76.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	93.4	—	Unverified
2	mPLUG-2	Accuracy (%)	90.33	—	Unverified
3	X2-VLM (large)	Accuracy (%)	87.6	—	Unverified
4	XFM (base)	Accuracy (%)	86.1	—	Unverified
5	X2-VLM (base)	Accuracy (%)	85.2	—	Unverified
6	X-VLM (base)	Accuracy (%)	84.51	—	Unverified