Visual Grounding

Visual Grounding (VG) aims to locate the most relevant object or region in an image, based on a natural language query. The query can be a phrase, a sentence, or even a multi-round dialogue. There are three main challenges in VG:

What is the main focus in a query?
How to understand an image?
How to locate an object?

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 571 papers

Title	Date	Tasks	Status	Hype
Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding	Feb 23, 2024	HallucinationObject	CodeCode Available	1
Beyond Literal Descriptions: Understanding and Locating Open-World Objects Aligned with Human Intentions	Feb 17, 2024	Visual Grounding	CodeCode Available	1
LLMs as Bridges: Reformulating Grounded Multimodal Named Entity Recognition	Feb 15, 2024	Grounded Multimodal Named Entity RecognitionMulti-modal Named Entity Recognition	CodeCode Available	1
Unifying Visual and Vision-Language Tracking via Contrastive Learning	Jan 20, 2024	Contrastive LearningObject Tracking	CodeCode Available	1
Veagle: Advancements in Multimodal Representation Learning	Jan 18, 2024	Image CaptioningLanguage Modelling	CodeCode Available	1
GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language Pre-training and Open-Vocabulary Object Detection	Dec 22, 2023	Attributeobject-detection	CodeCode Available	1
Mask Grounding for Referring Image Segmentation	Dec 19, 2023	cross-modal alignmentImage Segmentation	CodeCode Available	1
Context Disentangling and Prototype Inheriting for Robust Visual Grounding	Dec 19, 2023	Visual Grounding	CodeCode Available	1
Unveiling Parts Beyond Objects:Towards Finer-Granularity Referring Expression Segmentation	Dec 13, 2023	DescriptiveObject	CodeCode Available	1
Mono3DVG: 3D Visual Grounding in Monocular Images	Dec 13, 2023	3D Object Detection3D visual grounding	CodeCode Available	1
GPT-4 Enhanced Multimodal Grounding for Autonomous Driving: Leveraging Cross-Modal Attention with Large Language Models	Dec 6, 2023	Autonomous DrivingAutonomous Vehicles	CodeCode Available	1
Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions	Nov 28, 2023	DisentanglementReferring Expression	CodeCode Available	1
Visual Programming for Zero-shot Open-Vocabulary 3D Visual Grounding	Nov 26, 2023	3D visual groundingObject	CodeCode Available	1
InfMLLM: A Unified Framework for Visual-Language Tasks	Nov 12, 2023	GPUImage Captioning	CodeCode Available	1
Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks	Nov 10, 2023	DiversityMulti-Task Learning	CodeCode Available	1
Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in Clutter	Nov 9, 2023	ObjectVisual Grounding	CodeCode Available	1
GPT-4V-AD: Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot Anomaly Detection	Nov 5, 2023	Anomaly DetectionQuestion Answering	CodeCode Available	1
CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale Point Cloud Data	Oct 28, 2023	3D visual groundingAutonomous Vehicles	CodeCode Available	1
OV-VG: A Benchmark for Open-Vocabulary Visual Grounding	Oct 22, 2023	Novel Conceptsobject-detection	CodeCode Available	1
Visual Grounding Helps Learn Word Meanings in Low-Data Regimes	Oct 20, 2023	Image CaptioningLanguage Acquisition	CodeCode Available	1
CoT3DRef: Chain-of-Thoughts Data-Efficient 3D Visual Grounding	Oct 10, 2023	3D visual groundingVisual Grounding	CodeCode Available	1
Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models	Oct 9, 2023	Language ModellingQuestion Answering	CodeCode Available	1
PROGrasp: Pragmatic Human-Robot Communication for Object Grasping	Sep 14, 2023	ObjectObject Discovery	CodeCode Available	1
Multi3DRefer: Grounding Text Description to Multiple 3D Objects	Sep 11, 2023	3D visual groundingContrastive Learning	CodeCode Available	1
VGDiffZero: Text-to-image Diffusion Models Can Be Zero-shot Visual Grounders	Sep 3, 2023	Visual Grounding	CodeCode Available	1
UniPT: Universal Parallel Tuning for Transfer Learning with Efficient Parameter and Memory	Aug 28, 2023	Question AnsweringRetrieval	CodeCode Available	1
A Unified Framework for 3D Point Cloud Visual Grounding	Aug 23, 2023	CPUGPU	CodeCode Available	1
Target-Grounded Graph-Aware Transformer for Aerial Vision-and-Dialog Navigation	Aug 22, 2023	Visual Grounding	CodeCode Available	1
Iterative Robust Visual Grounding with Masked Reference based Centerpoint Supervision	Jul 23, 2023	DecoderVisual Grounding	CodeCode Available	1
Advancing Visual Grounding with Scene Knowledge: Benchmark and Method	Jul 21, 2023	Image-text matchingText Matching	CodeCode Available	1
Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly Supervised 3D Visual Grounding	Jul 18, 2023	3D visual groundingObject	CodeCode Available	1
What Do Self-Supervised Speech Models Know About Words?	Jun 30, 2023	SentenceSentence Similarity	CodeCode Available	1
Kosmos-2: Grounding Multimodal Large Language Models to the World	Jun 26, 2023	Image CaptioningIn-Context Learning	CodeCode Available	1
Rewarded soups: towards Pareto-optimal alignment by interpolating weights fine-tuned on diverse rewards	Jun 7, 2023	DiversityImage Captioning	CodeCode Available	1
Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans	May 23, 2023	3D Reconstruction3D visual grounding	CodeCode Available	1
Syllable Discovery and Cross-Lingual Generalization in a Visually Grounded, Self-Supervised Speech Model	May 19, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding	May 15, 2023	DiversityTransfer Learning	CodeCode Available	1
ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with GPT and Prototype Guidance	Mar 29, 2023	3D visual groundingVisual Grounding	CodeCode Available	1
Joint Visual Grounding and Tracking with Natural Language Specification	Mar 21, 2023	Visual GroundingVisual Tracking	CodeCode Available	1
Context-Aware Alignment and Mutual Masking for 3D-Language Pre-Training	Jan 1, 2023	3D dense captioning3D visual grounding	CodeCode Available	1
Confidence-aware Pseudo-label Learning for Weakly Supervised Visual Grounding	Jan 1, 2023	DescriptiveObject	CodeCode Available	1
Position-guided Text Prompt for Vision-Language Pre-training	Dec 19, 2022	Cross-Modal RetrievalImage Captioning	CodeCode Available	1
DQ-DETR: Dual Query Detection Transformer for Phrase Extraction and Grounding	Nov 28, 2022	object-detectionObject Detection	CodeCode Available	1
Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for 3D Visual Grounding	Nov 25, 2022	3D visual groundingKnowledge Distillation	CodeCode Available	1
YORO -- Lightweight End to End Visual Grounding	Nov 15, 2022	Natural Language QueriesVisual Grounding	CodeCode Available	1
Instruction-Following Agents with Multimodal Transformer	Oct 24, 2022	Instruction FollowingVisual Grounding	CodeCode Available	1
Learning Point-Language Hierarchical Alignment for 3D Visual Grounding	Oct 22, 2022	3D visual groundingSentence	CodeCode Available	1
GRAVL-BERT: Graphical Visual-Linguistic Representations for Multimodal Coreference Resolution	Oct 1, 2022	coreference-resolutionCoreference Resolution	CodeCode Available	1
EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual Grounding	Sep 29, 2022	3D visual groundingObject	CodeCode Available	1
Efficient Vision-Language Pretraining with Visual Concepts and Hierarchical Alignment	Aug 29, 2022	cross-modal alignmentImage-text Retrieval	CodeCode Available	1

Show:10 25 50

← PrevPage 3 of 12Next →

All datasets RefCOCO testA RefCOCO+ test B RefCoCo val

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	95.3	—	Unverified
2	mPLUG-2	Accuracy (%)	92.8	—	Unverified
3	X2-VLM (large)	Accuracy (%)	92.1	—	Unverified
4	XFM (base)	Accuracy (%)	90.4	—	Unverified
5	X2-VLM (base)	Accuracy (%)	90.3	—	Unverified
6	X-VLM (base)	Accuracy (%)	89	—	Unverified
7	HYDRA	IoU	61.7	—	Unverified
8	HYDRA	IoU	61.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	92	—	Unverified
2	mPLUG-2	Accuracy (%)	86.05	—	Unverified
3	X2-VLM (large)	Accuracy (%)	81.8	—	Unverified
4	XFM (base)	Accuracy (%)	79.8	—	Unverified
5	X2-VLM (base)	Accuracy (%)	78.4	—	Unverified
6	X-VLM (base)	Accuracy (%)	76.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	93.4	—	Unverified
2	mPLUG-2	Accuracy (%)	90.33	—	Unverified
3	X2-VLM (large)	Accuracy (%)	87.6	—	Unverified
4	XFM (base)	Accuracy (%)	86.1	—	Unverified
5	X2-VLM (base)	Accuracy (%)	85.2	—	Unverified
6	X-VLM (base)	Accuracy (%)	84.51	—	Unverified