Visual Grounding

Visual Grounding (VG) aims to locate the most relevant object or region in an image, based on a natural language query. The query can be a phrase, a sentence, or even a multi-round dialogue. There are three main challenges in VG:

What is the main focus in a query?
How to understand an image?
How to locate an object?

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–450 of 571 papers

Title	Date	Tasks	Status
Sample-Specific Debiasing for Better Image-Text Models	Apr 25, 2023	Contrastive LearningCross-Modal Retrieval	—Unverified
ScanReason: Empowering 3D Visual Grounding with Reasoning Capabilities	Jul 1, 2024	3D visual groundingLanguage Modeling	—Unverified
Adversarial Testing for Visual Grounding via Image-Aware Property Reduction	Mar 2, 2024	Visual Grounding	—Unverified
Scene-Intuitive Agent for Remote Embodied Visual Grounding	Mar 24, 2021	cross-modal alignmentNavigate	—Unverified
SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding	Jan 17, 2024	3D visual groundingScene Understanding	—Unverified
SCO-VIST: Social Interaction Commonsense Knowledge-based Visual Storytelling	Feb 1, 2024	DiversityImage Captioning	—Unverified
Adventurer's Treasure Hunt: A Transparent System for Visually Grounded Compositional Visual Question Answering based on Scene Graphs	Jun 28, 2021	Question AnsweringTask 2	—Unverified
Second Place Solution of WSDM2023 Toloka Visual Question Answering Challenge	Jul 5, 2024	Cross-Modal RetrievalQuestion Answering	—Unverified
SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding	Dec 5, 2024	3D visual groundingObject Localization	—Unverified
Emergent Communication with World Models	Feb 22, 2020	Visual Grounding	—Unverified
Seeing Speech and Sound: Distinguishing and Locating Audios in Visual Scenes	Mar 24, 2025	Cross-Modal RetrievalDisentanglement	—Unverified
Seeing Speech and Sound: Distinguishing and Locating Audio Sources in Visual Scenes	Jan 1, 2025	Cross-Modal RetrievalDisentanglement	—Unverified
Seeing the advantage: visually grounding word embeddings to better capture human semantic knowledge	Feb 21, 2022	Grounded language learningImage Retrieval	—Unverified
Seeing the Trees for the Forest: Rethinking Weakly-Supervised Medical Visual Grounding	May 21, 2025	Visual Grounding	—Unverified
Efficient Multi-Modal Embeddings from Structured Data	Oct 6, 2021	Semantic SimilaritySemantic Textual Similarity	—Unverified
Efficient Adaptation For Remote Sensing Visual Grounding	Mar 29, 2025	parameter-efficient fine-tuningVisual Grounding	—Unverified
EconWebArena: Benchmarking Autonomous Agents on Economic Tasks in Realistic Web Environments	Jun 9, 2025	BenchmarkingNavigate	—Unverified
EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues	Dec 19, 2024	Change DetectionDisaster Response	—Unverified
VQD: Visual Query Detection in Natural Scenes	Apr 4, 2019	Referring ExpressionReferring Expression Comprehension	—Unverified
Semantic Localization Guiding Segment Anything Model For Reference Remote Sensing Image Segmentation	Jun 12, 2025	Image SegmentationSegmentation	—Unverified
ACTRESS: Active Retraining for Semi-supervised Visual Grounding	Jul 3, 2024	Binary ClassificationVisual Grounding	—Unverified
Semantic sentence similarity: size does not always matter	Jun 16, 2021	Grounded language learningImage Retrieval	—Unverified
EAGLE: Enhanced Visual Grounding Minimizes Hallucinations in Instructional Multimodal Models	Jan 6, 2025	HallucinationVisual Grounding	—Unverified
Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding	Sep 28, 2022	DecoderVisual Grounding	—Unverified
Dynamic Inference With Grounding Based Vision and Language Models	Jan 1, 2023	Language ModellingReferring Expression	—Unverified
WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model	Aug 30, 2023	Language ModelingLanguage Modelling	—Unverified
Dual Attribute-Spatial Relation Alignment for 3D Visual Grounding	Jun 13, 2024	3D visual groundingAttribute	—Unverified
DSM: Building A Diverse Semantic Map for 3D Visual Grounding	Apr 11, 2025	3D visual groundingScene Understanding	—Unverified
Sim-To-Real Transfer of Visual Grounding for Human-Aided Ambiguity Resolution	May 24, 2022	Domain AdaptationVisual Grounding	—Unverified
Data-Efficient 3D Visual Grounding via Order-Aware Referring	Mar 25, 2024	3D visual groundingObject	—Unverified
WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar	Mar 19, 2024	Autonomous NavigationReferring Expression	—Unverified
Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation	May 24, 2025	Mathematical ReasoningMultimodal Reasoning	—Unverified
Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment	Dec 15, 2023	3D visual groundingNatural Language Queries	—Unverified
Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs	Jun 5, 2025	cross-modal alignmentDense Captioning	—Unverified
Weakly-supervised segmentation of referring expressions	May 10, 2022	Image SegmentationReferring Expression	—Unverified
Differentiable Parsing and Visual Grounding of Natural Language Instructions for Object Placement	Oct 1, 2022	Graph Neural NetworkObject	—Unverified
Spatio-Temporal Graph for Video Captioning with Knowledge Distillation	Mar 31, 2020	Knowledge DistillationObject	—Unverified
SPAZER: Spatial-Semantic Progressive Reasoning Agent for Zero-shot 3D Visual Grounding	Jun 27, 2025	3D visual groundingNatural Language Queries	—Unverified
Differentiable Disentanglement Filter: an Application Agnostic Core Concept Discovery Probe	Sep 4, 2019	DisentanglementVisual Grounding	—Unverified
Structured Preference Optimization for Vision-Language Long-Horizon Task Planning	Feb 28, 2025	Task PlanningVisual Grounding	—Unverified
Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery	Mar 22, 2024	Language ModelingLanguage Modelling	—Unverified
Suspected Object Matters: Rethinking Model's Prediction for One-stage Visual Grounding	Mar 10, 2022	ObjectVisual Grounding	—Unverified
Differentiable Disentanglement Filter: an Application Agnostic Core Concept Discovery Probe	Jul 17, 2019	DisentanglementVisual Grounding	—Unverified
Detecting Concrete Visual Tokens for Multimodal Machine Translation	Mar 5, 2024	Machine TranslationMultimodal Machine Translation	—Unverified
DenseGrounding: Improving Dense Language-Vision Semantics for Ego-Centric 3D Visual Grounding	May 8, 2025	3D visual groundingcross-modal alignment	—Unverified
Taking a HINT: Leveraging Explanations to Make Vision and Language Models More Grounded	Feb 11, 2019	Image CaptioningQuestion Answering	—Unverified
Decoupled Spatial Temporal Graphs for Generic Visual Grounding	Mar 18, 2021	Contrastive LearningVisual Grounding	—Unverified
Talk to Parallel LiDARs: A Human-LiDAR Interaction Method Based on 3D Visual Grounding	May 24, 2024	3D visual groundingAutonomous Driving	—Unverified
D3Net: A Unified Speaker-Listener Architecture for 3D Dense Captioning and Visual Grounding	Dec 2, 2021	3D dense captioning3D visual grounding	—Unverified
Task-aware Cross-modal Feature Refinement Transformer with Large Language Models for Visual Grounding	Jan 1, 2025	Referring ExpressionReferring Expression Comprehension	—Unverified

Show:10 25 50

← PrevPage 9 of 12Next →

All datasets RefCOCO testA RefCOCO+ test B RefCoCo val

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	95.3	—	Unverified
2	mPLUG-2	Accuracy (%)	92.8	—	Unverified
3	X2-VLM (large)	Accuracy (%)	92.1	—	Unverified
4	XFM (base)	Accuracy (%)	90.4	—	Unverified
5	X2-VLM (base)	Accuracy (%)	90.3	—	Unverified
6	X-VLM (base)	Accuracy (%)	89	—	Unverified
7	HYDRA	IoU	61.7	—	Unverified
8	HYDRA	IoU	61.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	92	—	Unverified
2	mPLUG-2	Accuracy (%)	86.05	—	Unverified
3	X2-VLM (large)	Accuracy (%)	81.8	—	Unverified
4	XFM (base)	Accuracy (%)	79.8	—	Unverified
5	X2-VLM (base)	Accuracy (%)	78.4	—	Unverified
6	X-VLM (base)	Accuracy (%)	76.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	93.4	—	Unverified
2	mPLUG-2	Accuracy (%)	90.33	—	Unverified
3	X2-VLM (large)	Accuracy (%)	87.6	—	Unverified
4	XFM (base)	Accuracy (%)	86.1	—	Unverified
5	X2-VLM (base)	Accuracy (%)	85.2	—	Unverified
6	X-VLM (base)	Accuracy (%)	84.51	—	Unverified