Visual Grounding

Visual Grounding (VG) aims to locate the most relevant object or region in an image, based on a natural language query. The query can be a phrase, a sentence, or even a multi-round dialogue. There are three main challenges in VG:

What is the main focus in a query?
How to understand an image?
How to locate an object?

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 476–500 of 571 papers

Title	Date	Tasks	Status
Ges3ViG : Incorporating Pointing Gestures into Language-Based 3D Visual Grounding for Embodied Reference Understanding	Jan 1, 2025	3D visual groundingData Augmentation	CodeCode Available
Ges3ViG: Incorporating Pointing Gestures into Language-Based 3D Visual Grounding for Embodied Reference Understanding	Apr 13, 2025	3D visual groundingData Augmentation	CodeCode Available
Context Does Matter: End-to-end Panoptic Narrative Grounding with Deformable Attention Refined Matching Network	Oct 25, 2023	Visual Grounding	CodeCode Available
Progressive Multi-granular Alignments for Grounded Reasoning in Large Vision-Language Models	Dec 11, 2024	Question AnsweringVisual Grounding	CodeCode Available
Phrase Decoupling Cross-Modal Hierarchical Matching and Progressive Position Correction for Visual Grounding	Oct 31, 2024	ObjectPosition	CodeCode Available
ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding	Aug 29, 2024	Data AugmentationImage Generation	CodeCode Available
Rethinking 3D Dense Caption and Visual Grounding in A Unified Framework through Prompt-based Localization	Apr 17, 2024	3D dense captioning3D visual grounding	CodeCode Available
Rethinking Diversified and Discriminative Proposal Generation for Visual Grounding	May 9, 2018	DiversityPhrase Grounding	CodeCode Available
WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language	Apr 12, 2023	3D visual groundingAutonomous Driving	CodeCode Available
G2D: From Global to Dense Radiography Representation Learning via Vision-Language Pre-training	Dec 3, 2023	object-detectionObject Detection	CodeCode Available
AttnGrounder: Talking to Cars with Attention	Sep 11, 2020	Referring Expression ComprehensionVisual Grounding	CodeCode Available
Revisiting Visual Question Answering Baselines	Jun 27, 2016	Binary ClassificationMultiple-choice	CodeCode Available
Not (yet) the whole story: Evaluating Visual Storytelling Requires More than Measuring Coherence, Grounding, and Repetition	Jul 5, 2024	Visual GroundingVisual Storytelling	CodeCode Available
NICE: Improving Panoptic Narrative Detection and Segmentation with Cascading Collaborative Learning	Oct 17, 2023	SegmentationVisual Grounding	CodeCode Available
Neural Twins Talk	Sep 26, 2020	Image CaptioningSentence	CodeCode Available
Uncovering the Full Potential of Visual Grounding Methods in VQA	Jan 15, 2024	Question AnsweringVisual Grounding	CodeCode Available
Connecting Vision and Language with Localized Narratives	Dec 6, 2019	FormImage Captioning	CodeCode Available
Attention as Grounding: Exploring Textual and Cross-Modal Attention on Entities and Relations in Language-and-Vision Transformer	May 1, 2022	Text GenerationVisual Grounding	CodeCode Available
OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework	Feb 7, 2022	Image Captioningimage-classification	CodeCode Available
RoViST:Learning Robust Metrics for Visual Storytelling	May 8, 2022	SentenceText Generation	CodeCode Available
RoViST: Learning Robust Metrics for Visual Storytelling	Jul 1, 2022	SentenceText Generation	CodeCode Available
Flexible Visual Grounding	May 1, 2022	ArticlesVisual Grounding	CodeCode Available
UniMoCo: Unified Modality Completion for Robust Multi-Modal Embeddings	May 17, 2025	Image to textInformation Retrieval	CodeCode Available
FiVL: A Framework for Improved Vision-Language Alignment	Dec 19, 2024	Answer GenerationMultimodal Reasoning	CodeCode Available
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding	Jun 6, 2016	Phrase GroundingVisual Grounding	CodeCode Available

Show:10 25 50

← PrevPage 20 of 23Next →

All datasets RefCOCO testA RefCOCO+ test B RefCoCo val

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	95.3	—	Unverified
2	mPLUG-2	Accuracy (%)	92.8	—	Unverified
3	X2-VLM (large)	Accuracy (%)	92.1	—	Unverified
4	XFM (base)	Accuracy (%)	90.4	—	Unverified
5	X2-VLM (base)	Accuracy (%)	90.3	—	Unverified
6	X-VLM (base)	Accuracy (%)	89	—	Unverified
7	HYDRA	IoU	61.7	—	Unverified
8	HYDRA	IoU	61.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	92	—	Unverified
2	mPLUG-2	Accuracy (%)	86.05	—	Unverified
3	X2-VLM (large)	Accuracy (%)	81.8	—	Unverified
4	XFM (base)	Accuracy (%)	79.8	—	Unverified
5	X2-VLM (base)	Accuracy (%)	78.4	—	Unverified
6	X-VLM (base)	Accuracy (%)	76.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	93.4	—	Unverified
2	mPLUG-2	Accuracy (%)	90.33	—	Unverified
3	X2-VLM (large)	Accuracy (%)	87.6	—	Unverified
4	XFM (base)	Accuracy (%)	86.1	—	Unverified
5	X2-VLM (base)	Accuracy (%)	85.2	—	Unverified
6	X-VLM (base)	Accuracy (%)	84.51	—	Unverified