Visual Grounding

Visual Grounding (VG) aims to locate the most relevant object or region in an image, based on a natural language query. The query can be a phrase, a sentence, or even a multi-round dialogue. There are three main challenges in VG:

What is the main focus in a query?
How to understand an image?
How to locate an object?

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–500 of 571 papers

Title	Date	Tasks	Status
Visual Grounding via Accumulated Attention	Jun 1, 2018	SentenceVisual Grounding	—Unverified
Visual Grounding with Attention-Driven Constraint Balancing	Jul 3, 2024	Objectobject-detection	—Unverified
Visual Intention Grounding for Egocentric Assistants	Apr 18, 2025	ObjectVisual Grounding	—Unverified
Visually grounded cross-lingual keyword spotting in speech	Jun 13, 2018	Keyword SpottingVisual Grounding	—Unverified
Visually Grounded Neural Syntax Acquisition	Jun 7, 2019	Visual Grounding	—Unverified
Visual Prompting in Multimodal Large Language Models: A Survey	Sep 5, 2024	In-Context LearningPrompt Learning	—Unverified
Visual Reference Resolution using Attention Memory for Visual Dialog	Sep 23, 2017	Parameter PredictionQuestion Answering	—Unverified
VisualTrap: A Stealthy Backdoor Attack on GUI Agents via Visual Grounding Manipulation	Jul 9, 2025	Backdoor AttackVisual Grounding	—Unverified
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks	Oct 7, 2024	Information RetrievalLanguage Modeling	—Unverified
VLMAE: Vision-Language Masked Autoencoder	Aug 19, 2022	Image-text RetrievalLanguage Modeling	—Unverified
VQD: Visual Query Detection in Natural Scenes	Apr 4, 2019	Referring ExpressionReferring Expression Comprehension	—Unverified
WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model	Aug 30, 2023	Language ModelingLanguage Modelling	—Unverified
WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar	Mar 19, 2024	Autonomous NavigationReferring Expression	—Unverified
Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment	Dec 15, 2023	3D visual groundingNatural Language Queries	—Unverified
Weakly-supervised segmentation of referring expressions	May 10, 2022	Image SegmentationReferring Expression	—Unverified
Weakly-supervised Visual Grounding of Phrases with Linguistic Structures	May 3, 2017	SentenceVisual Grounding	—Unverified
When Visual Grounding Meets Gigapixel-level Large-scale Scenes: Benchmark and Approach	Jan 1, 2024	Scene UnderstandingVisual Grounding	—Unverified
Word2Pix: Word to Pixel Cross Attention Transformer in Visual Grounding	Jul 31, 2021	DecoderSentence	—Unverified
YFACC: A Yorùbá speech-image dataset for cross-lingual keyword localisation through visual grounding	Oct 10, 2022	Visual Grounding	—Unverified
Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding	Mar 8, 2025	Language ModelingLanguage Modelling	—Unverified
ZALM3: Zero-Shot Enhancement of Vision-Language Alignment via In-Context Information in Multi-Turn Multimodal Medical Dialogue	Sep 26, 2024	Medical Visual Question AnsweringQuestion Answering	—Unverified
Zero-Shot 3D Visual Grounding from Vision-Language Models	May 28, 2025	3D visual groundingVisual Grounding	—Unverified
Zero-Shot Visual Grounding of Referring Utterances in Dialogue	Nov 16, 2021	DescriptiveVisual Grounding	—Unverified
A Better Loss for Visual-Textual Grounding	Aug 11, 2021	SentenceVisual Grounding	CodeCode Available
Context-Infused Visual Grounding for Art	Oct 16, 2024	object-detectionObject Detection	CodeCode Available
Ges3ViG : Incorporating Pointing Gestures into Language-Based 3D Visual Grounding for Embodied Reference Understanding	Jan 1, 2025	3D visual groundingData Augmentation	CodeCode Available
Ges3ViG: Incorporating Pointing Gestures into Language-Based 3D Visual Grounding for Embodied Reference Understanding	Apr 13, 2025	3D visual groundingData Augmentation	CodeCode Available
Context Does Matter: End-to-end Panoptic Narrative Grounding with Deformable Attention Refined Matching Network	Oct 25, 2023	Visual Grounding	CodeCode Available
Progressive Multi-granular Alignments for Grounded Reasoning in Large Vision-Language Models	Dec 11, 2024	Question AnsweringVisual Grounding	CodeCode Available
Phrase Decoupling Cross-Modal Hierarchical Matching and Progressive Position Correction for Visual Grounding	Oct 31, 2024	ObjectPosition	CodeCode Available
ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding	Aug 29, 2024	Data AugmentationImage Generation	CodeCode Available
Rethinking 3D Dense Caption and Visual Grounding in A Unified Framework through Prompt-based Localization	Apr 17, 2024	3D dense captioning3D visual grounding	CodeCode Available
Rethinking Diversified and Discriminative Proposal Generation for Visual Grounding	May 9, 2018	DiversityPhrase Grounding	CodeCode Available
WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language	Apr 12, 2023	3D visual groundingAutonomous Driving	CodeCode Available
G2D: From Global to Dense Radiography Representation Learning via Vision-Language Pre-training	Dec 3, 2023	object-detectionObject Detection	CodeCode Available
AttnGrounder: Talking to Cars with Attention	Sep 11, 2020	Referring Expression ComprehensionVisual Grounding	CodeCode Available
Revisiting Visual Question Answering Baselines	Jun 27, 2016	Binary ClassificationMultiple-choice	CodeCode Available
Not (yet) the whole story: Evaluating Visual Storytelling Requires More than Measuring Coherence, Grounding, and Repetition	Jul 5, 2024	Visual GroundingVisual Storytelling	CodeCode Available
NICE: Improving Panoptic Narrative Detection and Segmentation with Cascading Collaborative Learning	Oct 17, 2023	SegmentationVisual Grounding	CodeCode Available
Neural Twins Talk	Sep 26, 2020	Image CaptioningSentence	CodeCode Available
Uncovering the Full Potential of Visual Grounding Methods in VQA	Jan 15, 2024	Question AnsweringVisual Grounding	CodeCode Available
Connecting Vision and Language with Localized Narratives	Dec 6, 2019	FormImage Captioning	CodeCode Available
Attention as Grounding: Exploring Textual and Cross-Modal Attention on Entities and Relations in Language-and-Vision Transformer	May 1, 2022	Text GenerationVisual Grounding	CodeCode Available
OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework	Feb 7, 2022	Image Captioningimage-classification	CodeCode Available
RoViST:Learning Robust Metrics for Visual Storytelling	May 8, 2022	SentenceText Generation	CodeCode Available
RoViST: Learning Robust Metrics for Visual Storytelling	Jul 1, 2022	SentenceText Generation	CodeCode Available
Flexible Visual Grounding	May 1, 2022	ArticlesVisual Grounding	CodeCode Available
UniMoCo: Unified Modality Completion for Robust Multi-Modal Embeddings	May 17, 2025	Image to textInformation Retrieval	CodeCode Available
FiVL: A Framework for Improved Vision-Language Alignment	Dec 19, 2024	Answer GenerationMultimodal Reasoning	CodeCode Available
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding	Jun 6, 2016	Phrase GroundingVisual Grounding	CodeCode Available

Show:10 25 50

← PrevPage 10 of 12Next →

All datasets RefCOCO testA RefCOCO+ test B RefCoCo val

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	95.3	—	Unverified
2	mPLUG-2	Accuracy (%)	92.8	—	Unverified
3	X2-VLM (large)	Accuracy (%)	92.1	—	Unverified
4	XFM (base)	Accuracy (%)	90.4	—	Unverified
5	X2-VLM (base)	Accuracy (%)	90.3	—	Unverified
6	X-VLM (base)	Accuracy (%)	89	—	Unverified
7	HYDRA	IoU	61.7	—	Unverified
8	HYDRA	IoU	61.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	92	—	Unverified
2	mPLUG-2	Accuracy (%)	86.05	—	Unverified
3	X2-VLM (large)	Accuracy (%)	81.8	—	Unverified
4	XFM (base)	Accuracy (%)	79.8	—	Unverified
5	X2-VLM (base)	Accuracy (%)	78.4	—	Unverified
6	X-VLM (base)	Accuracy (%)	76.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	93.4	—	Unverified
2	mPLUG-2	Accuracy (%)	90.33	—	Unverified
3	X2-VLM (large)	Accuracy (%)	87.6	—	Unverified
4	XFM (base)	Accuracy (%)	86.1	—	Unverified
5	X2-VLM (base)	Accuracy (%)	85.2	—	Unverified
6	X-VLM (base)	Accuracy (%)	84.51	—	Unverified