Visual Grounding

Visual Grounding (VG) aims to locate the most relevant object or region in an image, based on a natural language query. The query can be a phrase, a sentence, or even a multi-round dialogue. There are three main challenges in VG:

What is the main focus in a query?
How to understand an image?
How to locate an object?

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–500 of 571 papers

Title	Date	Tasks	Status	Hype
CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models	Sep 24, 2021	Visual Grounding	CodeCode Available	1
Multimodal Incremental Transformer with Visual Grounding for Visual Dialogue Generation	Sep 17, 2021	Dialogue GenerationVisual Grounding	CodeCode Available	1
Discovering the Unknown Knowns: Turning Implicit Knowledge in the Dataset into Explicit Training Examples for Visual Question Answering	Sep 13, 2021	Data AugmentationQuestion Answering	CodeCode Available	0
Panoptic Narrative Grounding	Sep 10, 2021	Natural Language Visual GroundingPanoptic Segmentation	CodeCode Available	1
Retrieve, Caption, Generate: Visual Grounding for Enhancing Commonsense in Text Generation Models	Sep 8, 2021	Concept-To-Text GenerationSpecificity	—Unverified	0
INVIGORATE: Interactive Visual Grounding and Grasping in Clutter	Aug 25, 2021	BlockingObject	—Unverified	0
A Better Loss for Visual-Textual Grounding	Aug 11, 2021	SentenceVisual Grounding	CodeCode Available	0
TransRefer3D: Entity-and-Relation Aware Transformer for Fine-Grained 3D Visual Grounding	Aug 5, 2021	3D visual groundingRelation	—Unverified	0
Attending Self-Attention: A Case Study of Visually Grounded Supervision in Vision-and-Language Transformers	Aug 1, 2021	Language ModelingLanguage Modelling	—Unverified	0
Word2Pix: Word to Pixel Cross Attention Transformer in Visual Grounding	Jul 31, 2021	DecoderSentence	—Unverified	0
LanguageRefer: Spatial-Language Model for 3D Visual Grounding	Jul 7, 2021	3D visual groundingLanguage Modeling	—Unverified	0
VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer	Jul 6, 2021	Image RetrievalKnowledge Distillation	CodeCode Available	1
Adventurer's Treasure Hunt: A Transparent System for Visually Grounded Compositional Visual Question Answering based on Scene Graphs	Jun 28, 2021	Question AnsweringTask 2	—Unverified	0
AIFit: Automatic 3D Human-Interpretable Feedback Models for Fitness Training	Jun 19, 2021	Visual Grounding	—Unverified	0
Semantic sentence similarity: size does not always matter	Jun 16, 2021	Grounded language learningImage Retrieval	—Unverified	0
Attention-Based Keyword Localisation in Speech using Visual Grounding	Jun 16, 2021	Visual Grounding	—Unverified	0
Referring Transformer: A One-step Approach to Multi-task Visual Grounding	Jun 6, 2021	DecoderReferring Expression	CodeCode Available	1
Learning Better Visual Dialog Agents with Pretrained Visual-Linguistic Representation	May 24, 2021	Referring ExpressionReferring Expression Comprehension	CodeCode Available	0
SAT: 2D Semantics Assisted Training for 3D Visual Grounding	May 24, 2021	3D visual groundingObject	CodeCode Available	1
Connecting What to Say With Where to Look by Modeling Human Attention Traces	May 12, 2021	Caption GenerationImage Captioning	CodeCode Available	1
MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding	Apr 26, 2021	Generalized Referring Expression ComprehensionPhrase Grounding	CodeCode Available	1
TransVG: End-to-End Visual Grounding with Transformers	Apr 17, 2021	Referring Expression ComprehensionVisual Grounding	CodeCode Available	1
Look Before You Leap: Learning Landmark Features for One-Stage Visual Grounding	Apr 9, 2021	DescriptiveObject	CodeCode Available	1
Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation	Apr 5, 2021	ObjectVisual Grounding	CodeCode Available	1
Visual Grounding Strategies for Text-Only Natural Language Processing	Mar 25, 2021	Image RetrievalLanguage Modeling	—Unverified	0
Relation-aware Instance Refinement for Weakly Supervised Visual Grounding	Mar 24, 2021	ObjectRelation	CodeCode Available	1
Scene-Intuitive Agent for Remote Embodied Visual Grounding	Mar 24, 2021	cross-modal alignmentNavigate	—Unverified	0
Decoupled Spatial Temporal Graphs for Generic Visual Grounding	Mar 18, 2021	Contrastive LearningVisual Grounding	—Unverified	0
Few-Shot Visual Grounding for Natural Human-Robot Interaction	Mar 17, 2021	Visual Grounding	—Unverified	0
Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD Images	Mar 14, 2021	3D visual groundingObject	CodeCode Available	1
OCID-Ref: A 3D Robotic Dataset with Embodied Language for Clutter Scene Grounding	Mar 13, 2021	Referring ExpressionReferring Expression Segmentation	CodeCode Available	1
InstanceRefer: Cooperative Holistic Understanding for Visual Grounding on Point Clouds through Instance Multi-level Contextual Referring	Mar 1, 2021	3D visual groundingAttribute	CodeCode Available	1
Composing Pick-and-Place Tasks By Grounding Language	Feb 16, 2021	Natural Language Visual GroundingRobotic Grasping	CodeCode Available	0
Answer Questions with Right Image Regions: A Visual Attention Regularization Approach	Feb 3, 2021	Question AnsweringVisual Grounding	CodeCode Available	0
Transformers in Vision: A Survey	Jan 4, 2021	Action RecognitionActivity Recognition	—Unverified	0
3DVG-Transformer: Relation Modeling for Visual Grounding on Point Clouds	Jan 1, 2021	ObjectObject Proposal Generation	—Unverified	0
Explainable Video Entailment With Grounded Visual Evidence	Jan 1, 2021	Visual Grounding	—Unverified	0
Panoptic Narrative Grounding	Jan 1, 2021	Natural Language Visual GroundingPanoptic Segmentation	CodeCode Available	1
Text-Free Image-to-Speech Synthesis Using Learned Segmental Units	Dec 31, 2020	Image CaptioningSpeech Synthesis	CodeCode Available	1
CASTing Your Model: Learning to Localize Improves Self-Supervised Representations	Dec 8, 2020	Self-Supervised LearningVisual Grounding	—Unverified	0
Class-agnostic Object Detection	Nov 28, 2020	BenchmarkingClass-agnostic Object Detection	—Unverified	0
Text-to-Image Generation Grounded by Fine-Grained User Attention	Nov 7, 2020	Image GenerationPosition	CodeCode Available	1
Learning to ground medical text in a 3D human atlas	Nov 1, 2020	Phrase GroundingVisual Grounding	CodeCode Available	0
SOrT-ing VQA Models : Contrastive Gradient Learning for Improved Consistency	Oct 20, 2020	Question AnsweringVisual Grounding	CodeCode Available	0
Neural Twins Talk	Sep 26, 2020	Image CaptioningSentence	CodeCode Available	0
X-LXMERT: Paint, Caption and Answer Questions with Multi-Modal Transformers	Sep 23, 2020	Image CaptioningImage Generation	CodeCode Available	1
Commands 4 Autonomous Vehicles (C4AV) Workshop Summary	Sep 18, 2020	Autonomous VehiclesReferring Expression Comprehension	—Unverified	0
Cosine meets Softmax: A tough-to-beat baseline for visual grounding	Sep 13, 2020	Autonomous DrivingMetric Learning	CodeCode Available	0
AttnGrounder: Talking to Cars with Attention	Sep 11, 2020	Referring Expression ComprehensionVisual Grounding	CodeCode Available	0
Improving One-stage Visual Grounding by Recursive Sub-query Construction	Aug 3, 2020	SentenceSentence Embedding	CodeCode Available	1

Show:10 25 50

← PrevPage 10 of 12Next →

All datasets RefCOCO testA RefCOCO+ test B RefCoCo val

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	95.3	—	Unverified
2	mPLUG-2	Accuracy (%)	92.8	—	Unverified
3	X2-VLM (large)	Accuracy (%)	92.1	—	Unverified
4	XFM (base)	Accuracy (%)	90.4	—	Unverified
5	X2-VLM (base)	Accuracy (%)	90.3	—	Unverified
6	X-VLM (base)	Accuracy (%)	89	—	Unverified
7	HYDRA	IoU	61.7	—	Unverified
8	HYDRA	IoU	61.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	92	—	Unverified
2	mPLUG-2	Accuracy (%)	86.05	—	Unverified
3	X2-VLM (large)	Accuracy (%)	81.8	—	Unverified
4	XFM (base)	Accuracy (%)	79.8	—	Unverified
5	X2-VLM (base)	Accuracy (%)	78.4	—	Unverified
6	X-VLM (base)	Accuracy (%)	76.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	93.4	—	Unverified
2	mPLUG-2	Accuracy (%)	90.33	—	Unverified
3	X2-VLM (large)	Accuracy (%)	87.6	—	Unverified
4	XFM (base)	Accuracy (%)	86.1	—	Unverified
5	X2-VLM (base)	Accuracy (%)	85.2	—	Unverified
6	X-VLM (base)	Accuracy (%)	84.51	—	Unverified