Phrase Grounding

Given an image and a corresponding caption, the Phrase Grounding task aims to ground each entity mentioned by a noun phrase in the caption to a region in the image.

Source: Phrase Grounding by Soft-Label Chain Conditional Random Field

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 88 papers

Title	Date	Tasks	Status
CAVL: Learning Contrastive and Adaptive Representations of Vision and Language	Apr 10, 2023	Image RetrievalPhrase Grounding	—Unverified
Trade-offs in Fine-tuned Diffusion Models Between Accuracy and Interpretability	Mar 31, 2023	Conditional Image GenerationImage Generation	CodeCode Available
LIMITR: Leveraging Local Information for Medical Image-Text Representation	Mar 21, 2023	Image RetrievalPhrase Grounding	—Unverified
Investigating the Role of Attribute Context in Vision-Language Models for Object Recognition and Detection	Mar 17, 2023	AttributeContrastive Learning	—Unverified
Medical Phrase Grounding with Region-Phrase Context Contrastive Alignment	Mar 14, 2023	Medical Image AnalysisPhrase Grounding	—Unverified
Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing	Jan 11, 2023	Phrase GroundingSelf-Supervised Learning	CodeCode Available
Similarity Maps for Self-Training Weakly-Supervised Phrase Grounding	Jan 1, 2023	Phrase Grounding	CodeCode Available
Extending Phrase Grounding with Pronouns in Visual Dialogues	Oct 23, 2022	Phrase Grounding	CodeCode Available
Detailed Annotations of Chest X-Rays via CT Projection for Report Understanding	Oct 7, 2022	AnatomyPhrase Grounding	—Unverified
Making the Most of Text Semantics to Improve Biomedical Vision--Language Processing	Apr 21, 2022	Contrastive LearningLanguage Modeling	CodeCode Available
Lite-MDETR: A Lightweight Multi-Modal Detector	Jan 1, 2022	object-detectionObject Detection	—Unverified
Improving Pre-trained Vision-and-Language Embeddings for Phrase Grounding	Nov 1, 2021	Multimodal ReasoningPhrase Grounding	—Unverified
Unsupervised Vision-Language Grammar Induction with Shared Structure Modeling	Sep 29, 2021	Contrastive LearningPhrase Grounding	—Unverified
Grounding Plural Phrases: Countering Evaluation Biases by Individuation	Jun 1, 2021	Phrase Grounding	—Unverified
Detector-Free Weakly Supervised Grounding by Separation	Apr 20, 2021	Phrase Grounding	CodeCode Available
Disentangled Motif-aware Graph Learning for Phrase Grounding	Apr 13, 2021	DiversityGraph Learning	—Unverified
Utilizing Every Image Object for Semi-supervised Phrase Grounding	Nov 5, 2020	Phrase GroundingReferring Expression	—Unverified
Learning to ground medical text in a 3D human atlas	Nov 1, 2020	Phrase GroundingVisual Grounding	CodeCode Available
Propagating Over Phrase Relations for One-Stage Visual Grounding	Aug 1, 2020	Phrase GroundingRelational Reasoning	—Unverified
Neural Parameter Allocation Search	Jun 18, 2020	Image ClassificationPhrase Grounding	CodeCode Available
Phrase Grounding by Soft-Label Chain Conditional Random Field	Sep 1, 2019	Phrase GroundingStructured Prediction	CodeCode Available
Zero-Shot Grounding of Objects from Natural Language Queries	Aug 20, 2019	Natural Language Queriesobject-detection	CodeCode Available
Language Features Matter: Effective Language Representations for Vision-Language Tasks	Aug 17, 2019	Image CaptioningLanguage Modelling	—Unverified
Modularized Textual Grounding for Counterfactual Resilience	Apr 7, 2019	Attributecounterfactual	CodeCode Available
Align2Ground: Weakly Supervised Phrase Grounding Guided by Image-Caption Alignment	Mar 27, 2019	Image RetrievalPhrase Grounding	—Unverified

Show:10 25 50

← PrevPage 3 of 4Next →

All datasets Flickr30k Entities Test Flickr30k Flickr30k Entities Dev ReferIt Visual Genome

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GLIPv2	R@1	87.7	—	Unverified
2	FIBER-B	R@1	87.4	—	Unverified
3	GLIP	R@1	87.1	—	Unverified
4	PEVL	R@1	84.4	—	Unverified
5	MDETR-ENB5	R@1	84.3	—	Unverified
6	DIGN	R@1	78.73	—	Unverified
7	LCMCG	R@1	76.74	—	Unverified
8	Soft-Label Chain CRF (SL-CCRF)	R@1	74.69	—	Unverified
9	DDPN (ResNet-101)	R@1	73.3	—	Unverified
10	VisualBERT	R@1	71.33	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GBS Ensemble + 12-in-1	Pointing Game Accuracy	85.9	—	Unverified
2	GbS Ensemble MS-COCO	Pointing Game Accuracy	75.6	—	Unverified
3	COCO_ELMo_PNASNet	Pointing Game Accuracy	69.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Fiber-B	R@1	87.1	—	Unverified
2	PEVL	R@1	84.1	—	Unverified
3	VisualBERT	R@1	70.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VG_BiLSTM_VGG	Pointing Game Accuracy	62.76	—	Unverified
2	GbS Ensemble MS-COCO	Pointing Game Accuracy	58.21	—	Unverified
3	MCB	Accuracy	28.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GbS VG	Pointing Game Accuracy	55.91	—	Unverified
2	VG_ELMo_PNASNet	Pointing Game Accuracy	55.16	—	Unverified
3	GbS Ensemble MS-COCO	Pointing Game Accuracy	54.55	—	Unverified