Visual Grounding

Visual Grounding (VG) aims to locate the most relevant object or region in an image, based on a natural language query. The query can be a phrase, a sentence, or even a multi-round dialogue. There are three main challenges in VG:

What is the main focus in a query?
How to understand an image?
How to locate an object?

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–500 of 571 papers

Title	Date	Tasks	Status
Task-oriented Sequential Grounding in 3D Scenes	Aug 7, 2024	3D visual groundingVisual Grounding	—Unverified
Teaching Metric Distance to Autoregressive Multimodal Foundational Models	Mar 4, 2025	Image GenerationVisual Grounding	—Unverified
Tell Me the Evidence? Dual Visual-Linguistic Interaction for Answer Grounding	Jun 21, 2022	DecoderQuestion Answering	—Unverified
D2AF: A Dual-Driven Annotation and Filtering Framework for Visual Grounding	May 30, 2025	DiversityPseudo Label	—Unverified
Cycle-Consistency Learning for Captioning and Grounding	Dec 23, 2023	Image CaptioningVisual Grounding	—Unverified
COUNTS: Benchmarking Object Detectors and Multimodal Large Language Models under Distribution Shifts	Apr 14, 2025	BenchmarkingObject	—Unverified
Countering Language Drift via Visual Grounding	Sep 10, 2019	Language ModelingLanguage Modelling	—Unverified
The Solution for the ICCV 2023 Perception Test Challenge 2023 -- Task 6 -- Grounded videoQA	Jul 2, 2024	Grounded Video Question AnsweringObject Tracking	—Unverified
Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding	Sep 8, 2023	3D Instance Segmentation3D visual grounding	—Unverified
TinyRS-R1: Compact Multimodal Language Model for Remote Sensing	May 17, 2025	Language ModelingLanguage Modelling	—Unverified
Weakly-supervised Visual Grounding of Phrases with Linguistic Structures	May 3, 2017	SentenceVisual Grounding	—Unverified
A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical Image Analysis	Oct 31, 2023	DescriptiveMedical Image Analysis	—Unverified
3DWG: 3D Weakly Supervised Visual Grounding via Category and Instance-Level Alignment	May 3, 2025	SentenceVisual Grounding	—Unverified
Toward Explainable and Fine-Grained 3D Grounding through Referring Textual Phrases	Jul 5, 2022	ObjectRepresentation Learning	—Unverified
When Visual Grounding Meets Gigapixel-level Large-scale Scenes: Benchmark and Approach	Jan 1, 2024	Scene UnderstandingVisual Grounding	—Unverified
Towards Open-World Grasping with Large Vision-Language Models	Jun 26, 2024	Robotic GraspingVisual Grounding	—Unverified
Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers	Jan 3, 2024	Question AnsweringVisual Grounding	—Unverified
Zero-Shot 3D Visual Grounding from Vision-Language Models	May 28, 2025	3D visual groundingVisual Grounding	—Unverified
CoSign: Exploring Co-occurrence Signals in Skeleton-based Continuous Sign Language Recognition	Jan 1, 2023	Sign Language RecognitionVisual Grounding	—Unverified
Context-Aware Command Understanding for Tabletop Scenarios	Oct 8, 2024	Decision MakingVisual Grounding	—Unverified
Towards Visual Text Grounding of Multimodal Large Language Model	Apr 7, 2025	BenchmarkingLanguage Modeling	—Unverified
Training-Free Reasoning and Reflection in MLLMs	May 22, 2025	DecoderMultimodal Reasoning	—Unverified
Transfer Learning from Audio-Visual Grounding to Speech Recognition	Jul 9, 2019	speech-recognitionSpeech Recognition	—Unverified
Transformers in Vision: A Survey	Jan 4, 2021	Action RecognitionActivity Recognition	—Unverified
TransRefer3D: Entity-and-Relation Aware Transformer for Fine-Grained 3D Visual Grounding	Aug 5, 2021	3D visual groundingRelation	—Unverified
Compositional Temporal Visual Grounding of Natural Language Event Descriptions	Dec 4, 2019	Visual Grounding	—Unverified
Commands 4 Autonomous Vehicles (C4AV) Workshop Summary	Sep 18, 2020	Autonomous VehiclesReferring Expression Comprehension	—Unverified
TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation	Feb 11, 2025	RetrievalVision and Language Navigation	—Unverified
TreePrompt: Learning to Compose Tree Prompts for Explainable Visual Grounding	May 19, 2023	SentenceVisual Grounding	—Unverified
Class-agnostic Object Detection	Nov 28, 2020	BenchmarkingClass-agnostic Object Detection	—Unverified
Two Causally Related Needles in a Video Haystack	May 26, 2025	Video UnderstandingVisual Grounding	—Unverified
Word2Pix: Word to Pixel Cross Attention Transformer in Visual Grounding	Jul 31, 2021	DecoderSentence	—Unverified
Uni3DL: Unified Model for 3D and Language Understanding	Dec 5, 2023	Cross-Modal RetrievalInstance Segmentation	—Unverified
Unified Representation Space for 3D Visual Grounding	Jun 17, 2025	3D visual groundingContrastive Learning	—Unverified
3DVG-Transformer: Relation Modeling for Visual Grounding on Point Clouds	Jan 1, 2021	ObjectObject Proposal Generation	—Unverified
CASTing Your Model: Learning to Localize Improves Self-Supervised Representations	Dec 8, 2020	Self-Supervised LearningVisual Grounding	—Unverified
3DJCG: A Unified Framework for Joint Dense Captioning and Visual Grounding on 3D Point Clouds	Jan 1, 2022	3D dense captioningAttribute	—Unverified
Bridging Modality Gap for Visual Grounding with Effecitve Cross-modal Distillation	Dec 29, 2023	Visual Grounding	—Unverified
UniT3D: A Unified Transformer for 3D Dense Captioning and Visual Grounding	Dec 1, 2022	3D dense captioning3D visual grounding	—Unverified
UniVG-R1: Reasoning Guided Universal Visual Grounding with Reinforcement Learning	May 20, 2025	Large Language ModelMultimodal Large Language Model	—Unverified
Unveiling and Mitigating Bias in Audio Visual Segmentation	Jul 23, 2024	AttributeVisual Grounding	—Unverified
BlenderAlchemy: Editing 3D Graphics with Vision-Language Models	Apr 26, 2024	Game DesignImage Generation	—Unverified
Beyond Object Categories: Multi-Attribute Reference Understanding for Visual Grounding	Mar 25, 2025	AttributeObject	—Unverified
3D Spatial Understanding in MLLMs: Disambiguation and Evaluation	Dec 9, 2024	3D dense captioning3D visual grounding	—Unverified
UOUO: Uncontextualized Uncommon Objects for Measuring Knowledge Horizons of Vision Language Models	Jul 25, 2024	Computational EfficiencyQuestion Answering	—Unverified
Benchmarking Diverse-Modal Entity Linking with Generative Models	May 27, 2023	BenchmarkingDecoder	—Unverified
Using Multiple Instance Learning to Build Multimodal Representations	Dec 11, 2022	Contrastive LearningCross-Modal Retrieval	—Unverified
Being data-driven is not enough: Revisiting interactive instruction giving as a challenge for NLG	Nov 1, 2018	Text GenerationVisual Grounding	—Unverified
Bear the Query in Mind: Visual Grounding with Query-conditioned Convolution	Jun 18, 2022	Visual Grounding	—Unverified
Bayesian Self-Training for Semi-Supervised 3D Segmentation	Sep 12, 2024	3D Instance Segmentation3D Semantic Segmentation	—Unverified

Show:10 25 50

← PrevPage 10 of 12Next →

All datasets RefCOCO testA RefCOCO+ test B RefCoCo val

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	95.3	—	Unverified
2	mPLUG-2	Accuracy (%)	92.8	—	Unverified
3	X2-VLM (large)	Accuracy (%)	92.1	—	Unverified
4	XFM (base)	Accuracy (%)	90.4	—	Unverified
5	X2-VLM (base)	Accuracy (%)	90.3	—	Unverified
6	X-VLM (base)	Accuracy (%)	89	—	Unverified
7	HYDRA	IoU	61.7	—	Unverified
8	HYDRA	IoU	61.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	92	—	Unverified
2	mPLUG-2	Accuracy (%)	86.05	—	Unverified
3	X2-VLM (large)	Accuracy (%)	81.8	—	Unverified
4	XFM (base)	Accuracy (%)	79.8	—	Unverified
5	X2-VLM (base)	Accuracy (%)	78.4	—	Unverified
6	X-VLM (base)	Accuracy (%)	76.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	93.4	—	Unverified
2	mPLUG-2	Accuracy (%)	90.33	—	Unverified
3	X2-VLM (large)	Accuracy (%)	87.6	—	Unverified
4	XFM (base)	Accuracy (%)	86.1	—	Unverified
5	X2-VLM (base)	Accuracy (%)	85.2	—	Unverified
6	X-VLM (base)	Accuracy (%)	84.51	—	Unverified