Visual Grounding

Visual Grounding (VG) aims to locate the most relevant object or region in an image, based on a natural language query. The query can be a phrase, a sentence, or even a multi-round dialogue. There are three main challenges in VG:

What is the main focus in a query?
How to understand an image?
How to locate an object?

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 571 papers

Title	Date	Tasks	Status	Hype
Fine-Grained Semantically Aligned Vision-Language Pre-Training	Aug 4, 2022	cross-modal alignmentobject-detection	CodeCode Available	1
Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations	Jun 30, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
MixGen: A New Multi-Modal Data Augmentation	Jun 16, 2022	Data AugmentationImage-text Retrieval	CodeCode Available	1
TransVG++: End-to-End Visual Grounding with Language Conditioned Vision Transformer	Jun 14, 2022	Visual Grounding	CodeCode Available	1
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections	May 24, 2022	Computational Efficiencycross-modal alignment	CodeCode Available	1
Improving Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning	Apr 30, 2022	AttributeDecoder	CodeCode Available	1
3D-SPS: Single-Stage 3D Visual Grounding via Referred Point Progressive Selection	Apr 13, 2022	3D visual groundingVisual Grounding	CodeCode Available	1
Multi-View Transformer for 3D Visual Grounding	Apr 5, 2022	3D visual groundingVisual Grounding	CodeCode Available	1
SeqTR: A Simple yet Universal Network for Visual Grounding	Mar 30, 2022	DecoderReferring Expression	CodeCode Available	1
Collaborative Transformers for Grounded Situation Recognition	Mar 30, 2022	Grounded Situation RecognitionImage Classification	CodeCode Available	1
TubeDETR: Spatio-Temporal Video Grounding with Transformers	Mar 30, 2022	DecoderLanguage-Based Temporal Localization	CodeCode Available	1
Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual Grounding	Mar 29, 2022	Multimodal ReasoningVisual Grounding	CodeCode Available	1
Word Discovery in Visually Grounded, Self-Supervised Speech Models	Mar 28, 2022	ClusteringSegmentation	CodeCode Available	1
Local-Global Context Aware Transformer for Language-Guided Video Segmentation	Mar 18, 2022	Referring Expression SegmentationReferring Video Object Segmentation	CodeCode Available	1
Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding	Mar 16, 2022	Language ModellingNatural Language Queries	CodeCode Available	1
REX: Reasoning-aware and Grounded Explanation	Mar 11, 2022	Decision MakingExplanation Generation	CodeCode Available	1
Self-Supervised Representation Learning for Speech Using Visual Grounding and Masked Language Modeling	Feb 7, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
Multi-Modal Dynamic Graph Transformer for Visual Grounding	Jan 1, 2022	Visual Grounding	CodeCode Available	1
CLIP-Lite: Information Efficient Visual Representation Learning with Language Supervision	Dec 14, 2021	Contrastive LearningRepresentation Learning	CodeCode Available	1
UniTAB: Unifying Text and Box Outputs for Grounded Vision-Language Modeling	Nov 23, 2021	Image CaptioningImage Description	CodeCode Available	1
Grounded Situation Recognition with Transformers	Nov 19, 2021	DecoderGrounded Situation Recognition	CodeCode Available	1
Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts	Nov 16, 2021	Cross-Modal RetrievalImage Captioning	CodeCode Available	1
CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models	Sep 24, 2021	Visual Grounding	CodeCode Available	1
Multimodal Incremental Transformer with Visual Grounding for Visual Dialogue Generation	Sep 17, 2021	Dialogue GenerationVisual Grounding	CodeCode Available	1
Panoptic Narrative Grounding	Sep 10, 2021	Natural Language Visual GroundingPanoptic Segmentation	CodeCode Available	1
VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer	Jul 6, 2021	Image RetrievalKnowledge Distillation	CodeCode Available	1
Referring Transformer: A One-step Approach to Multi-task Visual Grounding	Jun 6, 2021	DecoderReferring Expression	CodeCode Available	1
SAT: 2D Semantics Assisted Training for 3D Visual Grounding	May 24, 2021	3D visual groundingObject	CodeCode Available	1
Connecting What to Say With Where to Look by Modeling Human Attention Traces	May 12, 2021	Caption GenerationImage Captioning	CodeCode Available	1
MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding	Apr 26, 2021	Generalized Referring Expression ComprehensionPhrase Grounding	CodeCode Available	1
TransVG: End-to-End Visual Grounding with Transformers	Apr 17, 2021	Referring Expression ComprehensionVisual Grounding	CodeCode Available	1
Look Before You Leap: Learning Landmark Features for One-Stage Visual Grounding	Apr 9, 2021	DescriptiveObject	CodeCode Available	1
Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation	Apr 5, 2021	ObjectVisual Grounding	CodeCode Available	1
Relation-aware Instance Refinement for Weakly Supervised Visual Grounding	Mar 24, 2021	ObjectRelation	CodeCode Available	1
Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD Images	Mar 14, 2021	3D visual groundingObject	CodeCode Available	1
OCID-Ref: A 3D Robotic Dataset with Embodied Language for Clutter Scene Grounding	Mar 13, 2021	Referring ExpressionReferring Expression Segmentation	CodeCode Available	1
InstanceRefer: Cooperative Holistic Understanding for Visual Grounding on Point Clouds through Instance Multi-level Contextual Referring	Mar 1, 2021	3D visual groundingAttribute	CodeCode Available	1
Panoptic Narrative Grounding	Jan 1, 2021	Natural Language Visual GroundingPanoptic Segmentation	CodeCode Available	1
Text-Free Image-to-Speech Synthesis Using Learned Segmental Units	Dec 31, 2020	Image CaptioningSpeech Synthesis	CodeCode Available	1
Text-to-Image Generation Grounded by Fine-Grained User Attention	Nov 7, 2020	Image GenerationPosition	CodeCode Available	1
X-LXMERT: Paint, Caption and Answer Questions with Multi-Modal Transformers	Sep 23, 2020	Image CaptioningImage Generation	CodeCode Available	1
Improving One-stage Visual Grounding by Recursive Sub-query Construction	Aug 3, 2020	SentenceSentence Embedding	CodeCode Available	1
Spatially Aware Multimodal Transformers for TextVQA	Jul 23, 2020	Optical Character Recognition (OCR)Spatial Reasoning	CodeCode Available	1
Visual Relation Grounding in Videos	Jul 17, 2020	Question AnsweringRelation	CodeCode Available	1
Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation	Jul 3, 2020	Contrastive LearningKnowledge Distillation	CodeCode Available	1
Visual Grounding of Learned Physical Models	Apr 28, 2020	Visual Grounding	CodeCode Available	1
Deep Multimodal Neural Architecture Search	Apr 25, 2020	DecoderImage-text matching	CodeCode Available	1
Visual Grounding Methods for VQA are Working for the Wrong Reasons!	Apr 12, 2020	Question AnsweringVisual Grounding	CodeCode Available	1
Visual Grounding in Video for Unsupervised Word Translation	Mar 11, 2020	TranslationVisual Grounding	CodeCode Available	1
Guessing State Tracking for Visual Dialogue	Feb 24, 2020	Visual Grounding	CodeCode Available	1

Show:10 25 50

← PrevPage 4 of 12Next →

All datasets RefCOCO testA RefCOCO+ test B RefCoCo val

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	95.3	—	Unverified
2	mPLUG-2	Accuracy (%)	92.8	—	Unverified
3	X2-VLM (large)	Accuracy (%)	92.1	—	Unverified
4	XFM (base)	Accuracy (%)	90.4	—	Unverified
5	X2-VLM (base)	Accuracy (%)	90.3	—	Unverified
6	X-VLM (base)	Accuracy (%)	89	—	Unverified
7	HYDRA	IoU	61.7	—	Unverified
8	HYDRA	IoU	61.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	92	—	Unverified
2	mPLUG-2	Accuracy (%)	86.05	—	Unverified
3	X2-VLM (large)	Accuracy (%)	81.8	—	Unverified
4	XFM (base)	Accuracy (%)	79.8	—	Unverified
5	X2-VLM (base)	Accuracy (%)	78.4	—	Unverified
6	X-VLM (base)	Accuracy (%)	76.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	93.4	—	Unverified
2	mPLUG-2	Accuracy (%)	90.33	—	Unverified
3	X2-VLM (large)	Accuracy (%)	87.6	—	Unverified
4	XFM (base)	Accuracy (%)	86.1	—	Unverified
5	X2-VLM (base)	Accuracy (%)	85.2	—	Unverified
6	X-VLM (base)	Accuracy (%)	84.51	—	Unverified