Visual Grounding

Visual Grounding (VG) aims to locate the most relevant object or region in an image, based on a natural language query. The query can be a phrase, a sentence, or even a multi-round dialogue. There are three main challenges in VG:

What is the main focus in a query?
How to understand an image?
How to locate an object?

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–460 of 571 papers

Title	Date	Tasks	Status
Cost-Effective Language Driven Image Editing with LX-DRIM	Oct 1, 2022	Visual Grounding	CodeCode Available
Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding	Sep 28, 2022	DecoderVisual Grounding	—Unverified
Introspective Learning : A Two-Stage Approach for Inference in Neural Networks	Sep 17, 2022	Active LearningDecision Making	CodeCode Available
Visual Grounding of Inter-lingual Word-Embeddings	Sep 8, 2022	Visual GroundingWord Embeddings	—Unverified
VLMAE: Vision-Language Masked Autoencoder	Aug 19, 2022	Image-text RetrievalLanguage Modeling	—Unverified
SiRi: A Simple Selective Retraining Mechanism for Transformer-based Visual Grounding	Jul 27, 2022	Visual Grounding	CodeCode Available
Toward Explainable and Fine-Grained 3D Grounding through Referring Textual Phrases	Jul 5, 2022	ObjectRepresentation Learning	—Unverified
RoViST: Learning Robust Metrics for Visual Storytelling	Jul 1, 2022	SentenceText Generation	CodeCode Available
How direct is the link between words and images?	Jun 30, 2022	Visual GroundingWord Embeddings	—Unverified
Tell Me the Evidence? Dual Visual-Linguistic Interaction for Answer Grounding	Jun 21, 2022	DecoderQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 46 of 58Next →

All datasets RefCOCO testA RefCOCO+ test B RefCoCo val

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	95.3	—	Unverified
2	mPLUG-2	Accuracy (%)	92.8	—	Unverified
3	X2-VLM (large)	Accuracy (%)	92.1	—	Unverified
4	XFM (base)	Accuracy (%)	90.4	—	Unverified
5	X2-VLM (base)	Accuracy (%)	90.3	—	Unverified
6	X-VLM (base)	Accuracy (%)	89	—	Unverified
7	HYDRA	IoU	61.7	—	Unverified
8	HYDRA	IoU	61.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	92	—	Unverified
2	mPLUG-2	Accuracy (%)	86.05	—	Unverified
3	X2-VLM (large)	Accuracy (%)	81.8	—	Unverified
4	XFM (base)	Accuracy (%)	79.8	—	Unverified
5	X2-VLM (base)	Accuracy (%)	78.4	—	Unverified
6	X-VLM (base)	Accuracy (%)	76.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	93.4	—	Unverified
2	mPLUG-2	Accuracy (%)	90.33	—	Unverified
3	X2-VLM (large)	Accuracy (%)	87.6	—	Unverified
4	XFM (base)	Accuracy (%)	86.1	—	Unverified
5	X2-VLM (base)	Accuracy (%)	85.2	—	Unverified
6	X-VLM (base)	Accuracy (%)	84.51	—	Unverified