Visual Grounding

Visual Grounding (VG) aims to locate the most relevant object or region in an image, based on a natural language query. The query can be a phrase, a sentence, or even a multi-round dialogue. There are three main challenges in VG:

What is the main focus in a query?
How to understand an image?
How to locate an object?

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–450 of 571 papers

Title	Date	Tasks	Status
Semantic sentence similarity: size does not always matter	Jun 16, 2021	Grounded language learningImage Retrieval	—Unverified
Sim-To-Real Transfer of Visual Grounding for Human-Aided Ambiguity Resolution	May 24, 2022	Domain AdaptationVisual Grounding	—Unverified
Spatio-Temporal Graph for Video Captioning with Knowledge Distillation	Mar 31, 2020	Knowledge DistillationObject	—Unverified
SPAZER: Spatial-Semantic Progressive Reasoning Agent for Zero-shot 3D Visual Grounding	Jun 27, 2025	3D visual groundingNatural Language Queries	—Unverified
Structured Preference Optimization for Vision-Language Long-Horizon Task Planning	Feb 28, 2025	Task PlanningVisual Grounding	—Unverified
Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery	Mar 22, 2024	Language ModelingLanguage Modelling	—Unverified
Suspected Object Matters: Rethinking Model's Prediction for One-stage Visual Grounding	Mar 10, 2022	ObjectVisual Grounding	—Unverified
Taking a HINT: Leveraging Explanations to Make Vision and Language Models More Grounded	Feb 11, 2019	Image CaptioningQuestion Answering	—Unverified
Talk to Parallel LiDARs: A Human-LiDAR Interaction Method Based on 3D Visual Grounding	May 24, 2024	3D visual groundingAutonomous Driving	—Unverified
Task-aware Cross-modal Feature Refinement Transformer with Large Language Models for Visual Grounding	Jan 1, 2025	Referring ExpressionReferring Expression Comprehension	—Unverified
Task-oriented Sequential Grounding in 3D Scenes	Aug 7, 2024	3D visual groundingVisual Grounding	—Unverified
Teaching Metric Distance to Autoregressive Multimodal Foundational Models	Mar 4, 2025	Image GenerationVisual Grounding	—Unverified
Tell Me the Evidence? Dual Visual-Linguistic Interaction for Answer Grounding	Jun 21, 2022	DecoderQuestion Answering	—Unverified
The Solution for the ICCV 2023 Perception Test Challenge 2023 -- Task 6 -- Grounded videoQA	Jul 2, 2024	Grounded Video Question AnsweringObject Tracking	—Unverified
Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding	Sep 8, 2023	3D Instance Segmentation3D visual grounding	—Unverified
TinyRS-R1: Compact Multimodal Language Model for Remote Sensing	May 17, 2025	Language ModelingLanguage Modelling	—Unverified
Toward Explainable and Fine-Grained 3D Grounding through Referring Textual Phrases	Jul 5, 2022	ObjectRepresentation Learning	—Unverified
Towards Open-World Grasping with Large Vision-Language Models	Jun 26, 2024	Robotic GraspingVisual Grounding	—Unverified
Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers	Jan 3, 2024	Question AnsweringVisual Grounding	—Unverified
Towards Visual Text Grounding of Multimodal Large Language Model	Apr 7, 2025	BenchmarkingLanguage Modeling	—Unverified
Training-Free Reasoning and Reflection in MLLMs	May 22, 2025	DecoderMultimodal Reasoning	—Unverified
Transfer Learning from Audio-Visual Grounding to Speech Recognition	Jul 9, 2019	speech-recognitionSpeech Recognition	—Unverified
Transformers in Vision: A Survey	Jan 4, 2021	Action RecognitionActivity Recognition	—Unverified
TransRefer3D: Entity-and-Relation Aware Transformer for Fine-Grained 3D Visual Grounding	Aug 5, 2021	3D visual groundingRelation	—Unverified
TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation	Feb 11, 2025	RetrievalVision and Language Navigation	—Unverified
TreePrompt: Learning to Compose Tree Prompts for Explainable Visual Grounding	May 19, 2023	SentenceVisual Grounding	—Unverified
Two Causally Related Needles in a Video Haystack	May 26, 2025	Video UnderstandingVisual Grounding	—Unverified
Uni3DL: Unified Model for 3D and Language Understanding	Dec 5, 2023	Cross-Modal RetrievalInstance Segmentation	—Unverified
Unified Representation Space for 3D Visual Grounding	Jun 17, 2025	3D visual groundingContrastive Learning	—Unverified
UniT3D: A Unified Transformer for 3D Dense Captioning and Visual Grounding	Dec 1, 2022	3D dense captioning3D visual grounding	—Unverified
UniVG-R1: Reasoning Guided Universal Visual Grounding with Reinforcement Learning	May 20, 2025	Large Language ModelMultimodal Large Language Model	—Unverified
Unveiling and Mitigating Bias in Audio Visual Segmentation	Jul 23, 2024	AttributeVisual Grounding	—Unverified
UOUO: Uncontextualized Uncommon Objects for Measuring Knowledge Horizons of Vision Language Models	Jul 25, 2024	Computational EfficiencyQuestion Answering	—Unverified
Using Multiple Instance Learning to Build Multimodal Representations	Dec 11, 2022	Contrastive LearningCross-Modal Retrieval	—Unverified
VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos	Nov 7, 2024	DecoderLanguage Modeling	—Unverified
VideoGLaMM : A Large Multimodal Model for Pixel-Level Visual Grounding in Videos	Jan 1, 2025	Large Language ModelVideo Segmentation	—Unverified
VidLA: Video-Language Alignment at Scale	Mar 21, 2024	Language ModellingVisual Grounding	—Unverified
Viewpoint-Aware Visual Grounding in 3D Scenes	Jan 1, 2024	3D visual groundingReferring Expression	—Unverified
ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding	Jan 1, 2023	3D visual groundingVisual Grounding	—Unverified
ViewSRD: 3D Visual Grounding via Structured Multi-View Decomposition	Jul 15, 2025	3D visual groundingVisual Grounding	—Unverified
ViGiL3D: A Linguistically Diverse Dataset for 3D Visual Grounding	Jan 2, 2025	3D visual groundingDiagnostic	—Unverified
VIMI: Grounding Video Generation through Multi-modal Instruction	Jul 8, 2024	Text-to-Video GenerationVideo Generation	—Unverified
Vision-Language Pre-training with Object Contrastive Learning for 3D Scene Understanding	May 18, 2023	Contrastive LearningObject	—Unverified
VIST-GPT: Ushering in the Era of Visual Storytelling with LLMs?	Apr 27, 2025	Visual GroundingVisual Storytelling	—Unverified
Visual Grounding Annotation of Recipe Flow Graph	May 1, 2020	Visual Grounding	—Unverified
Visual grounding for desktop graphical user interfaces	May 5, 2024	Language ModelingLanguage Modelling	—Unverified
How direct is the link between words and images?	Jun 30, 2022	Visual GroundingWord Embeddings	—Unverified
Visual Grounding of Inter-lingual Word-Embeddings	Sep 8, 2022	Visual GroundingWord Embeddings	—Unverified
Visual Grounding of Whole Radiology Reports for 3D CT Images	Dec 8, 2023	SegmentationVisual Grounding	—Unverified
Visual Grounding Strategies for Text-Only Natural Language Processing	Mar 25, 2021	Image RetrievalLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 9 of 12Next →

All datasets RefCOCO testA RefCOCO+ test B RefCoCo val

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	95.3	—	Unverified
2	mPLUG-2	Accuracy (%)	92.8	—	Unverified
3	X2-VLM (large)	Accuracy (%)	92.1	—	Unverified
4	XFM (base)	Accuracy (%)	90.4	—	Unverified
5	X2-VLM (base)	Accuracy (%)	90.3	—	Unverified
6	X-VLM (base)	Accuracy (%)	89	—	Unverified
7	HYDRA	IoU	61.7	—	Unverified
8	HYDRA	IoU	61.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	92	—	Unverified
2	mPLUG-2	Accuracy (%)	86.05	—	Unverified
3	X2-VLM (large)	Accuracy (%)	81.8	—	Unverified
4	XFM (base)	Accuracy (%)	79.8	—	Unverified
5	X2-VLM (base)	Accuracy (%)	78.4	—	Unverified
6	X-VLM (base)	Accuracy (%)	76.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	93.4	—	Unverified
2	mPLUG-2	Accuracy (%)	90.33	—	Unverified
3	X2-VLM (large)	Accuracy (%)	87.6	—	Unverified
4	XFM (base)	Accuracy (%)	86.1	—	Unverified
5	X2-VLM (base)	Accuracy (%)	85.2	—	Unverified
6	X-VLM (base)	Accuracy (%)	84.51	—	Unverified