Visual Grounding

Visual Grounding (VG) aims to locate the most relevant object or region in an image, based on a natural language query. The query can be a phrase, a sentence, or even a multi-round dialogue. There are three main challenges in VG:

What is the main focus in a query?
How to understand an image?
How to locate an object?

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–550 of 571 papers

Title	Date	Tasks	Status	Hype
Propagating Over Phrase Relations for One-Stage Visual Grounding	Aug 1, 2020	Phrase GroundingRelational Reasoning	—Unverified	0
Spatially Aware Multimodal Transformers for TextVQA	Jul 23, 2020	Optical Character Recognition (OCR)Spatial Reasoning	CodeCode Available	1
Visual Relation Grounding in Videos	Jul 17, 2020	Question AnsweringRelation	CodeCode Available	1
Reducing Language Biases in Visual Question Answering with Visually-Grounded Question Encoder	Jul 13, 2020	Question AnsweringVisual Grounding	—Unverified	0
Multi-Granularity Modularized Network for Abstract Visual Reasoning	Jul 9, 2020	Visual GroundingVisual Reasoning	—Unverified	0
Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation	Jul 3, 2020	Contrastive LearningKnowledge Distillation	CodeCode Available	1
Knowledge Supports Visual Language Grounding: A Case Study on Colour Terms	Jul 1, 2020	DiagnosticObject	—Unverified	0
Fast visual grounding in interaction: bringing few-shot learning with neural networks to an interactive robot	Jun 1, 2020	Few-Shot LearningTransfer Learning	—Unverified	0
Visual Grounding Annotation of Recipe Flow Graph	May 1, 2020	Visual Grounding	—Unverified	0
Visual Grounding of Learned Physical Models	Apr 28, 2020	Visual Grounding	CodeCode Available	1
Deep Multimodal Neural Architecture Search	Apr 25, 2020	DecoderImage-text matching	CodeCode Available	1
Visual Grounding Methods for VQA are Working for the Wrong Reasons!	Apr 12, 2020	Question AnsweringVisual Grounding	CodeCode Available	1
Spatio-Temporal Graph for Video Captioning with Knowledge Distillation	Mar 31, 2020	Knowledge DistillationObject	—Unverified	0
Giving Commands to a Self-driving Car: A Multimodal Reasoner for Visual Grounding	Mar 19, 2020	ObjectReferring Expression Comprehension	—Unverified	0
Visual Grounding in Video for Unsupervised Word Translation	Mar 11, 2020	TranslationVisual Grounding	CodeCode Available	1
Guessing State Tracking for Visual Dialogue	Feb 24, 2020	Visual Grounding	CodeCode Available	1
Emergent Communication with World Models	Feb 22, 2020	Visual Grounding	—Unverified	0
Learning Cross-modal Context Graph for Visual Grounding	Feb 13, 2020	Graph MatchingGraph Neural Network	CodeCode Available	1
Exploring Context, Attention and Audio Features for Audio Visual Scene-Aware Dialog	Dec 20, 2019	Audio ClassificationVisual Grounding	—Unverified	0
Connecting Vision and Language with Localized Narratives	Dec 6, 2019	FormImage Captioning	CodeCode Available	0
Compositional Temporal Visual Grounding of Natural Language Event Descriptions	Dec 4, 2019	Visual Grounding	—Unverified	0
OptiBox: Breaking the Limits of Proposals for Visual Grounding	Nov 29, 2019	Image CaptioningVisual Grounding	—Unverified	0
Learning Cross-modal Context Graph for Visual Grounding	Nov 20, 2019	Graph MatchingGraph Neural Network	CodeCode Available	1
Leveraging Past References for Robust Language Grounding	Nov 1, 2019	ObjectReferring Expression	—Unverified	0
Countering Language Drift via Visual Grounding	Sep 10, 2019	Language ModelingLanguage Modelling	—Unverified	0
Language learning using Speech to Image retrieval	Sep 9, 2019	Grounded language learningImage Retrieval	—Unverified	0
Differentiable Disentanglement Filter: an Application Agnostic Core Concept Discovery Probe	Sep 4, 2019	DisentanglementVisual Grounding	—Unverified	0
A Fast and Accurate One-Stage Approach to Visual Grounding	Aug 18, 2019	Referring ExpressionReferring Expression Comprehension	CodeCode Available	1
Multimodal Unified Attention Networks for Vision-and-Language Interactions	Aug 12, 2019	Question AnsweringVisual Grounding	—Unverified	0
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks	Aug 6, 2019	Image RetrievalQuestion Answering	CodeCode Available	1
Differentiable Disentanglement Filter: an Application Agnostic Core Concept Discovery Probe	Jul 17, 2019	DisentanglementVisual Grounding	—Unverified	0
Transfer Learning from Audio-Visual Grounding to Speech Recognition	Jul 9, 2019	speech-recognitionSpeech Recognition	—Unverified	0
Joint Visual Grounding with Language Scene Graphs	Jun 9, 2019	Referring ExpressionVisual Grounding	—Unverified	0
Visually Grounded Neural Syntax Acquisition	Jun 7, 2019	Visual Grounding	—Unverified	0
Learning to Compose and Reason with Language Tree Structures for Visual Grounding	Jun 5, 2019	Visual GroundingVisual Reasoning	—Unverified	0
On the Contributions of Visual and Textual Supervision in Low-Resource Semantic Speech Retrieval	Apr 24, 2019	RetrievalVisual Grounding	—Unverified	0
Semantic query-by-example speech search using visual grounding	Apr 15, 2019	RetrievalSemantic Retrieval	CodeCode Available	0
Modularized Textual Grounding for Counterfactual Resilience	Apr 7, 2019	Attributecounterfactual	CodeCode Available	0
VQD: Visual Query Detection in Natural Scenes	Apr 4, 2019	Referring ExpressionReferring Expression Comprehension	—Unverified	0
Revisiting Visual Grounding	Apr 3, 2019	Image RetrievalRetrieval	—Unverified	0
Learning semantic sentence representations from visually grounded language without lexical knowledge	Mar 27, 2019	Grounded language learningLearning Semantic Representations	CodeCode Available	0
Align2Ground: Weakly Supervised Phrase Grounding Guided by Image-Caption Alignment	Mar 27, 2019	Image RetrievalPhrase Grounding	—Unverified	0
Dual Attention Networks for Visual Reference Resolution in Visual Dialog	Feb 25, 2019	AI AgentQuestion Answering	CodeCode Available	0
You Only Look & Listen Once: Towards Fast and Accurate Visual Grounding	Feb 12, 2019	object-detectionObject Detection	CodeCode Available	0
Taking a HINT: Leveraging Explanations to Make Vision and Language Models More Grounded	Feb 11, 2019	Image CaptioningQuestion Answering	—Unverified	0
Learning to Assemble Neural Module Tree Networks for Visual Grounding	Dec 8, 2018	Dependency ParsingNatural Language Visual Grounding	—Unverified	0
Multi-task Learning of Hierarchical Vision-Language Representation	Dec 3, 2018	Multi-Task LearningQuestion Answering	—Unverified	0
Being data-driven is not enough: Revisiting interactive instruction giving as a challenge for NLG	Nov 1, 2018	Text GenerationVisual Grounding	—Unverified	0
Overcoming Language Priors in Visual Question Answering with Adversarial Regularization	Oct 8, 2018	Question AnsweringVisual Grounding	—Unverified	0
Beyond task success: A closer look at jointly learning to see, ask, and GuessWhat	Sep 10, 2018	Multi-Task LearningReinforcement Learning	CodeCode Available	0

Show:10 25 50

← PrevPage 11 of 12Next →

All datasets RefCOCO testA RefCOCO+ test B RefCoCo val

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	95.3	—	Unverified
2	mPLUG-2	Accuracy (%)	92.8	—	Unverified
3	X2-VLM (large)	Accuracy (%)	92.1	—	Unverified
4	XFM (base)	Accuracy (%)	90.4	—	Unverified
5	X2-VLM (base)	Accuracy (%)	90.3	—	Unverified
6	X-VLM (base)	Accuracy (%)	89	—	Unverified
7	HYDRA	IoU	61.7	—	Unverified
8	HYDRA	IoU	61.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	92	—	Unverified
2	mPLUG-2	Accuracy (%)	86.05	—	Unverified
3	X2-VLM (large)	Accuracy (%)	81.8	—	Unverified
4	XFM (base)	Accuracy (%)	79.8	—	Unverified
5	X2-VLM (base)	Accuracy (%)	78.4	—	Unverified
6	X-VLM (base)	Accuracy (%)	76.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence-2-large-ft	Accuracy (%)	93.4	—	Unverified
2	mPLUG-2	Accuracy (%)	90.33	—	Unverified
3	X2-VLM (large)	Accuracy (%)	87.6	—	Unverified
4	XFM (base)	Accuracy (%)	86.1	—	Unverified
5	X2-VLM (base)	Accuracy (%)	85.2	—	Unverified
6	X-VLM (base)	Accuracy (%)	84.51	—	Unverified