Visual Grounding

Visual Grounding (VG) aims to locate the most relevant object or region in an image, based on a natural language query. The query can be a phrase, a sentence, or even a multi-round dialogue. There are three main challenges in VG:

What is the main focus in a query?
How to understand an image?
How to locate an object?

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–450 of 571 papers

Title	Date	Tasks	Status	Hype
Fine-Grained Semantically Aligned Vision-Language Pre-Training	Aug 4, 2022	cross-modal alignmentobject-detection	CodeCode Available	1
SiRi: A Simple Selective Retraining Mechanism for Transformer-based Visual Grounding	Jul 27, 2022	Visual Grounding	CodeCode Available	0
Toward Explainable and Fine-Grained 3D Grounding through Referring Textual Phrases	Jul 5, 2022	ObjectRepresentation Learning	—Unverified	0
RoViST: Learning Robust Metrics for Visual Storytelling	Jul 1, 2022	SentenceText Generation	CodeCode Available	0
How direct is the link between words and images?	Jun 30, 2022	Visual GroundingWord Embeddings	—Unverified	0
Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations	Jun 30, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
Tell Me the Evidence? Dual Visual-Linguistic Interaction for Answer Grounding	Jun 21, 2022	DecoderQuestion Answering	—Unverified	0
Bear the Query in Mind: Visual Grounding with Query-conditioned Convolution	Jun 18, 2022	Visual Grounding	—Unverified	0
Language with Vision: a Study on Grounded Word and Sentence Embeddings	Jun 17, 2022	SentenceSentence Embeddings	CodeCode Available	0
MixGen: A New Multi-Modal Data Augmentation	Jun 16, 2022	Data AugmentationImage-text Retrieval	CodeCode Available	1
TransVG++: End-to-End Visual Grounding with Language Conditioned Vision Transformer	Jun 14, 2022	Visual Grounding	CodeCode Available	1
Referring Image Matting	Jun 10, 2022	Domain GeneralizationImage Matting	CodeCode Available	2
Guiding Visual Question Answering with Attention Priors	May 25, 2022	Question AnsweringVisual Grounding	—Unverified	0
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections	May 24, 2022	Computational Efficiencycross-modal alignment	CodeCode Available	1
Sim-To-Real Transfer of Visual Grounding for Human-Aided Ambiguity Resolution	May 24, 2022	Domain AdaptationVisual Grounding	—Unverified	0
Weakly-supervised segmentation of referring expressions	May 10, 2022	Image SegmentationReferring Expression	—Unverified	0
RoViST:Learning Robust Metrics for Visual Storytelling	May 8, 2022	SentenceText Generation	CodeCode Available	0
Flexible Visual Grounding	May 1, 2022	ArticlesVisual Grounding	CodeCode Available	0
To Find Waldo You Need Contextual Cues: Debiasing Who’s Waldo	May 1, 2022	BenchmarkingPerson-centric Visual Grounding	CodeCode Available	0
Attention as Grounding: Exploring Textual and Cross-Modal Attention on Entities and Relations in Language-and-Vision Transformer	May 1, 2022	Text GenerationVisual Grounding	CodeCode Available	0
Improving Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning	Apr 30, 2022	AttributeDecoder	CodeCode Available	1
3D-SPS: Single-Stage 3D Visual Grounding via Referred Point Progressive Selection	Apr 13, 2022	3D visual groundingVisual Grounding	CodeCode Available	1
Multi-View Transformer for 3D Visual Grounding	Apr 5, 2022	3D visual groundingVisual Grounding	CodeCode Available	1
FindIt: Generalized Localization with Natural Language Queries	Mar 31, 2022	Natural Language QueriesObject	—Unverified	0
To Find Waldo You Need Contextual Cues: Debiasing Who's Waldo	Mar 30, 2022	BenchmarkingPerson-centric Visual Grounding	CodeCode Available	0
Collaborative Transformers for Grounded Situation Recognition	Mar 30, 2022	Grounded Situation RecognitionImage Classification	CodeCode Available	1
TubeDETR: Spatio-Temporal Video Grounding with Transformers	Mar 30, 2022	DecoderLanguage-Based Temporal Localization	CodeCode Available	1
SeqTR: A Simple yet Universal Network for Visual Grounding	Mar 30, 2022	DecoderReferring Expression	CodeCode Available	1
Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual Grounding	Mar 29, 2022	Multimodal ReasoningVisual Grounding	CodeCode Available	1
Word Discovery in Visually Grounded, Self-Supervised Speech Models	Mar 28, 2022	ClusteringSegmentation	CodeCode Available	1
Local-Global Context Aware Transformer for Language-Guided Video Segmentation	Mar 18, 2022	Referring Expression SegmentationReferring Video Object Segmentation	CodeCode Available	1
Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding	Mar 16, 2022	Language ModellingNatural Language Queries	CodeCode Available	1
REX: Reasoning-aware and Grounded Explanation	Mar 11, 2022	Decision MakingExplanation Generation	CodeCode Available	1
Suspected Object Matters: Rethinking Model's Prediction for One-stage Visual Grounding	Mar 10, 2022	ObjectVisual Grounding	—Unverified	0
Seeing the advantage: visually grounding word embeddings to better capture human semantic knowledge	Feb 21, 2022	Grounded language learningImage Retrieval	—Unverified	0
Self-Supervised Representation Learning for Speech Using Visual Grounding and Masked Language Modeling	Feb 7, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework	Feb 7, 2022	Image Captioningimage-classification	CodeCode Available	0
Multi-Modal Dynamic Graph Transformer for Visual Grounding	Jan 1, 2022	Visual Grounding	CodeCode Available	1
3DJCG: A Unified Framework for Joint Dense Captioning and Visual Grounding on 3D Point Clouds	Jan 1, 2022	3D dense captioningAttribute	—Unverified	0
Deconfounded Visual Grounding	Dec 31, 2021	Referring ExpressionVisual Grounding	CodeCode Available	0
RoViST: Learning Robust Metrics for Visual Storytelling	Dec 17, 2021	SentenceText Generation	—Unverified	0
CLIP-Lite: Information Efficient Visual Representation Learning with Language Supervision	Dec 14, 2021	Contrastive LearningRepresentation Learning	CodeCode Available	1
D3Net: A Unified Speaker-Listener Architecture for 3D Dense Captioning and Visual Grounding	Dec 2, 2021	3D dense captioning3D visual grounding	—Unverified	0
Less is More: Generating Grounded Navigation Instructions from Landmarks	Nov 25, 2021	DecoderInstruction Following	—Unverified	0
UniTAB: Unifying Text and Box Outputs for Grounded Vision-Language Modeling	Nov 23, 2021	Image CaptioningImage Description	CodeCode Available	1
Grounded Situation Recognition with Transformers	Nov 19, 2021	DecoderGrounded Situation Recognition	CodeCode Available	1
Zero-Shot Visual Grounding of Referring Utterances in Dialogue	Nov 16, 2021	DescriptiveVisual Grounding	—Unverified	0
Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts	Nov 16, 2021	Cross-Modal RetrievalImage Captioning	CodeCode Available	1
Attention as Grounding: Exploring Textual and Cross-Modal Attention on Entities and Relations in Language-and-Vision Transformer	Oct 16, 2021	Text GenerationVisual Grounding	—Unverified	0
Efficient Multi-Modal Embeddings from Structured Data	Oct 6, 2021	Semantic SimilaritySemantic Textual Similarity	—Unverified	0

Show:10 25 50

← PrevPage 9 of 12Next →

All datasets RefCOCO testA RefCOCO+ test B RefCoCo val

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	95.3	—	Unverified
2	mPLUG-2	Accuracy (%)	92.8	—	Unverified
3	X2-VLM (large)	Accuracy (%)	92.1	—	Unverified
4	XFM (base)	Accuracy (%)	90.4	—	Unverified
5	X2-VLM (base)	Accuracy (%)	90.3	—	Unverified
6	X-VLM (base)	Accuracy (%)	89	—	Unverified
7	HYDRA	IoU	61.7	—	Unverified
8	HYDRA	IoU	61.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	92	—	Unverified
2	mPLUG-2	Accuracy (%)	86.05	—	Unverified
3	X2-VLM (large)	Accuracy (%)	81.8	—	Unverified
4	XFM (base)	Accuracy (%)	79.8	—	Unverified
5	X2-VLM (base)	Accuracy (%)	78.4	—	Unverified
6	X-VLM (base)	Accuracy (%)	76.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	93.4	—	Unverified
2	mPLUG-2	Accuracy (%)	90.33	—	Unverified
3	X2-VLM (large)	Accuracy (%)	87.6	—	Unverified
4	XFM (base)	Accuracy (%)	86.1	—	Unverified
5	X2-VLM (base)	Accuracy (%)	85.2	—	Unverified
6	X-VLM (base)	Accuracy (%)	84.51	—	Unverified