Visual Grounding

Visual Grounding (VG) aims to locate the most relevant object or region in an image, based on a natural language query. The query can be a phrase, a sentence, or even a multi-round dialogue. There are three main challenges in VG:

What is the main focus in a query?
How to understand an image?
How to locate an object?

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–500 of 571 papers

Title	Date	Tasks	Status
Cost-Effective Language Driven Image Editing with LX-DRIM	Oct 1, 2022	Visual Grounding	CodeCode Available
Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding	Sep 28, 2022	DecoderVisual Grounding	—Unverified
Introspective Learning : A Two-Stage Approach for Inference in Neural Networks	Sep 17, 2022	Active LearningDecision Making	CodeCode Available
Visual Grounding of Inter-lingual Word-Embeddings	Sep 8, 2022	Visual GroundingWord Embeddings	—Unverified
VLMAE: Vision-Language Masked Autoencoder	Aug 19, 2022	Image-text RetrievalLanguage Modeling	—Unverified
SiRi: A Simple Selective Retraining Mechanism for Transformer-based Visual Grounding	Jul 27, 2022	Visual Grounding	CodeCode Available
Toward Explainable and Fine-Grained 3D Grounding through Referring Textual Phrases	Jul 5, 2022	ObjectRepresentation Learning	—Unverified
RoViST: Learning Robust Metrics for Visual Storytelling	Jul 1, 2022	SentenceText Generation	CodeCode Available
How direct is the link between words and images?	Jun 30, 2022	Visual GroundingWord Embeddings	—Unverified
Tell Me the Evidence? Dual Visual-Linguistic Interaction for Answer Grounding	Jun 21, 2022	DecoderQuestion Answering	—Unverified
Bear the Query in Mind: Visual Grounding with Query-conditioned Convolution	Jun 18, 2022	Visual Grounding	—Unverified
Language with Vision: a Study on Grounded Word and Sentence Embeddings	Jun 17, 2022	SentenceSentence Embeddings	CodeCode Available
Guiding Visual Question Answering with Attention Priors	May 25, 2022	Question AnsweringVisual Grounding	—Unverified
Sim-To-Real Transfer of Visual Grounding for Human-Aided Ambiguity Resolution	May 24, 2022	Domain AdaptationVisual Grounding	—Unverified
Weakly-supervised segmentation of referring expressions	May 10, 2022	Image SegmentationReferring Expression	—Unverified
RoViST:Learning Robust Metrics for Visual Storytelling	May 8, 2022	SentenceText Generation	CodeCode Available
Flexible Visual Grounding	May 1, 2022	ArticlesVisual Grounding	CodeCode Available
Attention as Grounding: Exploring Textual and Cross-Modal Attention on Entities and Relations in Language-and-Vision Transformer	May 1, 2022	Text GenerationVisual Grounding	CodeCode Available
To Find Waldo You Need Contextual Cues: Debiasing Who’s Waldo	May 1, 2022	BenchmarkingPerson-centric Visual Grounding	CodeCode Available
FindIt: Generalized Localization with Natural Language Queries	Mar 31, 2022	Natural Language QueriesObject	—Unverified
To Find Waldo You Need Contextual Cues: Debiasing Who's Waldo	Mar 30, 2022	BenchmarkingPerson-centric Visual Grounding	CodeCode Available
Suspected Object Matters: Rethinking Model's Prediction for One-stage Visual Grounding	Mar 10, 2022	ObjectVisual Grounding	—Unverified
Seeing the advantage: visually grounding word embeddings to better capture human semantic knowledge	Feb 21, 2022	Grounded language learningImage Retrieval	—Unverified
OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework	Feb 7, 2022	Image Captioningimage-classification	CodeCode Available
3DJCG: A Unified Framework for Joint Dense Captioning and Visual Grounding on 3D Point Clouds	Jan 1, 2022	3D dense captioningAttribute	—Unverified
Deconfounded Visual Grounding	Dec 31, 2021	Referring ExpressionVisual Grounding	CodeCode Available
RoViST: Learning Robust Metrics for Visual Storytelling	Dec 17, 2021	SentenceText Generation	—Unverified
D3Net: A Unified Speaker-Listener Architecture for 3D Dense Captioning and Visual Grounding	Dec 2, 2021	3D dense captioning3D visual grounding	—Unverified
Less is More: Generating Grounded Navigation Instructions from Landmarks	Nov 25, 2021	DecoderInstruction Following	—Unverified
Zero-Shot Visual Grounding of Referring Utterances in Dialogue	Nov 16, 2021	DescriptiveVisual Grounding	—Unverified
Attention as Grounding: Exploring Textual and Cross-Modal Attention on Entities and Relations in Language-and-Vision Transformer	Oct 16, 2021	Text GenerationVisual Grounding	—Unverified
Efficient Multi-Modal Embeddings from Structured Data	Oct 6, 2021	Semantic SimilaritySemantic Textual Similarity	—Unverified
Discovering the Unknown Knowns: Turning Implicit Knowledge in the Dataset into Explicit Training Examples for Visual Question Answering	Sep 13, 2021	Data AugmentationQuestion Answering	CodeCode Available
Retrieve, Caption, Generate: Visual Grounding for Enhancing Commonsense in Text Generation Models	Sep 8, 2021	Concept-To-Text GenerationSpecificity	—Unverified
INVIGORATE: Interactive Visual Grounding and Grasping in Clutter	Aug 25, 2021	BlockingObject	—Unverified
A Better Loss for Visual-Textual Grounding	Aug 11, 2021	SentenceVisual Grounding	CodeCode Available
TransRefer3D: Entity-and-Relation Aware Transformer for Fine-Grained 3D Visual Grounding	Aug 5, 2021	3D visual groundingRelation	—Unverified
Attending Self-Attention: A Case Study of Visually Grounded Supervision in Vision-and-Language Transformers	Aug 1, 2021	Language ModelingLanguage Modelling	—Unverified
Word2Pix: Word to Pixel Cross Attention Transformer in Visual Grounding	Jul 31, 2021	DecoderSentence	—Unverified
LanguageRefer: Spatial-Language Model for 3D Visual Grounding	Jul 7, 2021	3D visual groundingLanguage Modeling	—Unverified
Adventurer's Treasure Hunt: A Transparent System for Visually Grounded Compositional Visual Question Answering based on Scene Graphs	Jun 28, 2021	Question AnsweringTask 2	—Unverified
AIFit: Automatic 3D Human-Interpretable Feedback Models for Fitness Training	Jun 19, 2021	Visual Grounding	—Unverified
Attention-Based Keyword Localisation in Speech using Visual Grounding	Jun 16, 2021	Visual Grounding	—Unverified
Semantic sentence similarity: size does not always matter	Jun 16, 2021	Grounded language learningImage Retrieval	—Unverified
Learning Better Visual Dialog Agents with Pretrained Visual-Linguistic Representation	May 24, 2021	Referring ExpressionReferring Expression Comprehension	CodeCode Available
Visual Grounding Strategies for Text-Only Natural Language Processing	Mar 25, 2021	Image RetrievalLanguage Modeling	—Unverified
Scene-Intuitive Agent for Remote Embodied Visual Grounding	Mar 24, 2021	cross-modal alignmentNavigate	—Unverified
Decoupled Spatial Temporal Graphs for Generic Visual Grounding	Mar 18, 2021	Contrastive LearningVisual Grounding	—Unverified
Few-Shot Visual Grounding for Natural Human-Robot Interaction	Mar 17, 2021	Visual Grounding	—Unverified
Composing Pick-and-Place Tasks By Grounding Language	Feb 16, 2021	Natural Language Visual GroundingRobotic Grasping	CodeCode Available

Show:10 25 50

← PrevPage 10 of 12Next →

All datasets RefCOCO testA RefCOCO+ test B RefCoCo val

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	95.3	—	Unverified
2	mPLUG-2	Accuracy (%)	92.8	—	Unverified
3	X2-VLM (large)	Accuracy (%)	92.1	—	Unverified
4	XFM (base)	Accuracy (%)	90.4	—	Unverified
5	X2-VLM (base)	Accuracy (%)	90.3	—	Unverified
6	X-VLM (base)	Accuracy (%)	89	—	Unverified
7	HYDRA	IoU	61.7	—	Unverified
8	HYDRA	IoU	61.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	92	—	Unverified
2	mPLUG-2	Accuracy (%)	86.05	—	Unverified
3	X2-VLM (large)	Accuracy (%)	81.8	—	Unverified
4	XFM (base)	Accuracy (%)	79.8	—	Unverified
5	X2-VLM (base)	Accuracy (%)	78.4	—	Unverified
6	X-VLM (base)	Accuracy (%)	76.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	93.4	—	Unverified
2	mPLUG-2	Accuracy (%)	90.33	—	Unverified
3	X2-VLM (large)	Accuracy (%)	87.6	—	Unverified
4	XFM (base)	Accuracy (%)	86.1	—	Unverified
5	X2-VLM (base)	Accuracy (%)	85.2	—	Unverified
6	X-VLM (base)	Accuracy (%)	84.51	—	Unverified