Phrase Grounding

Given an image and a corresponding caption, the Phrase Grounding task aims to ground each entity mentioned by a noun phrase in the caption to a region in the image.

Source: Phrase Grounding by Soft-Label Chain Conditional Random Field

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 88 papers

Title	Date	Tasks	Status	Hype
GLIPv2: Unifying Localization and Vision-Language Understanding	Jun 12, 2022	2D Object DetectionContrastive Learning	CodeCode Available	4
Towards Visual Grounding: A Survey	Dec 28, 2024	Phrase GroundingReferring Expression	CodeCode Available	3
OmDet: Large-scale vision-language multi-dataset pre-training with multimodal detection network	Sep 10, 2022	Continual LearningObject	CodeCode Available	3
PG-Video-LLaVA: Pixel Grounding Large Video-Language Models	Nov 22, 2023	BenchmarkingPhrase Grounding	CodeCode Available	2
MDETR - Modulated Detection for End-to-End Multi-Modal Understanding	Jan 1, 2021	Phrase GroundingQuestion Answering	CodeCode Available	2
An Open and Comprehensive Pipeline for Unified Object Grounding and Detection	Jan 4, 2024	Described Object DetectionPhrase Grounding	CodeCode Available	1
Enhancing Representation in Radiography-Reports Foundation Model: A Granular Alignment Algorithm Using Masked Contrastive Learning	Sep 12, 2023	Contrastive LearningMedical Image Analysis	CodeCode Available	1
A Survey on Interpretable Cross-modal Reasoning	Sep 5, 2023	Cross-Modal RetrievalDecision Making	CodeCode Available	1
Kosmos-2: Grounding Multimodal Large Language Models to the World	Jun 26, 2023	Image CaptioningIn-Context Learning	CodeCode Available	1
DQ-DETR: Dual Query Detection Transformer for Phrase Extraction and Grounding	Nov 28, 2022	object-detectionObject Detection	CodeCode Available	1
What is Where by Looking: Weakly-Supervised Open-World Phrase-Grounding without Text Inputs	Jun 19, 2022	BenchmarkingImage Captioning	CodeCode Available	1
Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone	Jun 15, 2022	Described Object DetectionImage Captioning	CodeCode Available	1
PEVL: Position-enhanced Pre-training and Prompt Tuning for Vision-language Models	May 23, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
Unsupervised Vision-Language Parsing: Seamlessly Bridging Visual Scene Graphs with Language Structures via Dependency Relationships	Mar 27, 2022	Contrastive LearningPhrase Grounding	CodeCode Available	1
MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding	Apr 26, 2021	Generalized Referring Expression ComprehensionPhrase Grounding	CodeCode Available	1
MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase Grounding	Oct 12, 2020	Phrase Grounding	CodeCode Available	1
Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation	Jul 3, 2020	Contrastive LearningKnowledge Distillation	CodeCode Available	1
Contrastive Learning for Weakly Supervised Phrase Grounding	Jun 17, 2020	Contrastive LearningLanguage Modeling	CodeCode Available	1
Learning Cross-modal Context Graph for Visual Grounding	Feb 13, 2020	Graph MatchingGraph Neural Network	CodeCode Available	1
Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models	May 19, 2015	Image DescriptionPhrase Grounding	CodeCode Available	1
Anatomy-Grounded Weakly Supervised Prompt Tuning for Chest X-ray Latent Diffusion Models	Jun 12, 2025	AnatomyImage Generation	—Unverified	0
Disambiguating Reference in Visually Grounded Dialogues through Joint Modeling of Textual and Multimodal Semantic Structures	May 16, 2025	coreference-resolutionCoreference Resolution	CodeCode Available	0
A Comparison of Object Detection and Phrase Grounding Models in Chest X-ray Abnormality Localization using Eye-tracking Data	Mar 2, 2025	object-detectionObject Detection	—Unverified	0
Progressive Local Alignment for Medical Multimodal Pre-training	Feb 25, 2025	Contrastive LearningImage-text Retrieval	—Unverified	0
Anatomical grounding pre-training for medical phrase grounding	Feb 23, 2025	Phrase GroundingZero-Shot Learning	CodeCode Available	0
VICCA: Visual Interpretation and Comprehension of Chest X-ray Anomalies in Generated Report Without Human Feedback	Jan 29, 2025	Phrase Grounding	CodeCode Available	0
Contextual Self-paced Learning for Weakly Supervised Spatio-Temporal Video Grounding	Jan 28, 2025	object-detectionObject Detection	—Unverified	0
Hierarchical Alignment-enhanced Adaptive Grounding Network for Generalized Referring Expression Comprehension	Jan 2, 2025	Generalized Referring Expression ComprehensionGeneralized Referring Expression Segmentation	—Unverified	0
ViCaS: A Dataset for Combining Holistic and Pixel-level Video Understanding using Captions with Grounded Segmentation	Dec 12, 2024	Phrase GroundingQuestion Answering	—Unverified	0
Context-Infused Visual Grounding for Art	Oct 16, 2024	object-detectionObject Detection	CodeCode Available	0
Transformer with Controlled Attention for Synchronous Motion Captioning	Sep 13, 2024	Action LocalizationAction Segmentation	CodeCode Available	0
Pre-Training Multimodal Hallucination Detectors with Corrupted Grounding Data	Aug 30, 2024	HallucinationPhrase Grounding	—Unverified	0
A Lightweight Modular Framework for Low-Cost Open-Vocabulary Object Detection Training	Aug 20, 2024	Autonomous VehiclesComputational Efficiency	CodeCode Available	0
CXR-Agent: Vision-language models for chest X-ray interpretation with uncertainty aware radiology reporting	Jul 11, 2024	Data AugmentationPhrase Grounding	—Unverified	0
Empathic Grounding: Explorations using Multimodal Interaction and Large Language Models with Conversational Agents	Jul 1, 2024	Emotional IntelligenceEmotion Classification	CodeCode Available	0
Q-GroundCAM: Quantifying Grounding in Vision Language Models via GradCAM	Apr 29, 2024	Phrase GroundingScene Understanding	—Unverified	0
Zero-Shot Medical Phrase Grounding with Off-the-shelf Diffusion Models	Apr 19, 2024	Contrastive LearningPhrase Grounding	CodeCode Available	0
MedRG: Medical Report Grounding with Multi-modal Large Language Model	Apr 10, 2024	DecoderLanguage Modeling	—Unverified	0
Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring	Mar 14, 2024	ObjectObject Counting	—Unverified	0
Contrastive Region Guidance: Improving Grounding in Vision-Language Models without Training	Mar 4, 2024	MathPhrase Grounding	—Unverified	0
How to Understand "Support"? An Implicit-enhanced Causal Inference Approach for Weakly-supervised Phrase Grounding	Feb 29, 2024	Causal Inferencecounterfactual	—Unverified	0
Phrase Grounding-based Style Transfer for Single-Domain Generalized Object Detection	Feb 2, 2024	object-detectionObject Detection	—Unverified	0
Enhancing the vision-language foundation model with key semantic knowledge-emphasized report refinement	Jan 21, 2024	Medical Image AnalysisPhrase Grounding	—Unverified	0
Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation for Grounding-Based Vision and Language Models	Nov 5, 2023	Data AugmentationPhrase Grounding	CodeCode Available	0
Localizing Active Objects from Egocentric Vision with Symbolic World Knowledge	Oct 23, 2023	Phrase GroundingWorld Knowledge	CodeCode Available	0
Box-based Refinement for Weakly Supervised and Unsupervised Localization Tasks	Sep 7, 2023	Object DiscoveryPhrase Grounding	CodeCode Available	0
A Joint Study of Phrase Grounding and Task Performance in Vision and Language Models	Sep 6, 2023	Phrase Grounding	CodeCode Available	0
Catalog Phrase Grounding (CPG): Grounding of Product Textual Attributes in Product Images for e-commerce Vision-Language Applications	Aug 30, 2023	Decoderobject-detection	—Unverified	0
Read, look and detect: Bounding box annotation from image-caption pairs	Jun 9, 2023	Objectobject-detection	—Unverified	0
ELVIS: Empowering Locality of Vision Language Pre-training with Intra-modal Similarity	Apr 11, 2023	Phrase Grounding	—Unverified	0

Show:10 25 50

← PrevPage 1 of 2Next →

All datasets Flickr30k Entities Test Flickr30k Flickr30k Entities Dev ReferIt Visual Genome

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GLIPv2	R@1	87.7	—	Unverified
2	FIBER-B	R@1	87.4	—	Unverified
3	GLIP	R@1	87.1	—	Unverified
4	PEVL	R@1	84.4	—	Unverified
5	MDETR-ENB5	R@1	84.3	—	Unverified
6	DIGN	R@1	78.73	—	Unverified
7	LCMCG	R@1	76.74	—	Unverified
8	Soft-Label Chain CRF (SL-CCRF)	R@1	74.69	—	Unverified
9	DDPN (ResNet-101)	R@1	73.3	—	Unverified
10	VisualBERT	R@1	71.33	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GBS Ensemble + 12-in-1	Pointing Game Accuracy	85.9	—	Unverified
2	GbS Ensemble MS-COCO	Pointing Game Accuracy	75.6	—	Unverified
3	COCO_ELMo_PNASNet	Pointing Game Accuracy	69.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Fiber-B	R@1	87.1	—	Unverified
2	PEVL	R@1	84.1	—	Unverified
3	VisualBERT	R@1	70.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VG_BiLSTM_VGG	Pointing Game Accuracy	62.76	—	Unverified
2	GbS Ensemble MS-COCO	Pointing Game Accuracy	58.21	—	Unverified
3	MCB	Accuracy	28.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GbS VG	Pointing Game Accuracy	55.91	—	Unverified
2	VG_ELMo_PNASNet	Pointing Game Accuracy	55.16	—	Unverified
3	GbS Ensemble MS-COCO	Pointing Game Accuracy	54.55	—	Unverified