Referring Expression

Referring expressions places a bounding box around the instance corresponding to the provided description and image.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 364 papers

Title	Date	Tasks	Status	Hype
Large-Scale Adversarial Training for Vision-and-Language Representation Learning	Jun 11, 2020	Image-text RetrievalQuestion Answering	CodeCode Available	1
A Unified Framework for 3D Point Cloud Visual Grounding	Aug 23, 2023	CPUGPU	CodeCode Available	1
Airbert: In-domain Pretraining for Vision-and-Language Navigation	Aug 20, 2021	NavigateReferring Expression	CodeCode Available	1
LLMs as Bridges: Reformulating Grounded Multimodal Named Entity Recognition	Feb 15, 2024	Grounded Multimodal Named Entity RecognitionMulti-modal Named Entity Recognition	CodeCode Available	1
LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Models for Referring Expression Comprehension	Sep 18, 2024	Referring ExpressionReferring Expression Comprehension	CodeCode Available	1
Kosmos-2: Grounding Multimodal Large Language Models to the World	Jun 26, 2023	Image CaptioningIn-Context Learning	CodeCode Available	1
LAVT: Language-Aware Vision Transformer for Referring Image Segmentation	Dec 4, 2021	DecoderGeneralized Referring Expression Segmentation	CodeCode Available	1
Iterative Shrinking for Referring Expression Grounding Using Deep Reinforcement Learning	Mar 9, 2021	Deep Reinforcement LearningReferring Expression	CodeCode Available	1
IPDN: Image-enhanced Prompt Decoding Network for 3D Referring Expression Segmentation	Jan 9, 2025	DecoderReferring Expression	CodeCode Available	1
IteRPrimE: Zero-shot Referring Image Segmentation with Iterative Grad-CAM Refinement and Primary Word Emphasis	Mar 2, 2025	Image SegmentationImage-text matching	CodeCode Available	1
Layout-aware Dreamer for Embodied Referring Expression Grounding	Nov 30, 2022	Common Sense ReasoningNavigate	CodeCode Available	1
MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding	Apr 26, 2021	Generalized Referring Expression ComprehensionPhrase Grounding	CodeCode Available	1
GSVA: Generalized Segmentation via Multimodal Large Language Models	Dec 15, 2023	DecoderGeneralized Referring Expression Segmentation	CodeCode Available	1
GRIT: General Robust Image Task Benchmark	Apr 28, 2022	Instance SegmentationKeypoint Detection	CodeCode Available	1
CoHD: A Counting-Aware Hierarchical Decoding Framework for Generalized Referring Expression Segmentation	May 24, 2024	Generalized Referring Expression SegmentationObject	CodeCode Available	1
An Open and Comprehensive Pipeline for Unified Object Grounding and Detection	Jan 4, 2024	Described Object DetectionPhrase Grounding	CodeCode Available	1
Colors in Context: A Pragmatic Neural Model for Grounded Language Understanding	Mar 29, 2017	Referring Expression	CodeCode Available	1
Advancing Referring Expression Segmentation Beyond Single Image	May 21, 2023	Co-Salient Object DetectionObject	CodeCode Available	1
Graph-Structured Referring Expression Reasoning in The Wild	Apr 19, 2020	Referring Expression	CodeCode Available	1
Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation	Oct 11, 2024	BenchmarkingImage Segmentation	CodeCode Available	1
Human-centric Spatio-Temporal Video Grounding With Visual Transformers	Nov 10, 2020	Referring ExpressionSentence	CodeCode Available	1
A Recurrent Vision-and-Language BERT for Navigation	Nov 26, 2020	Decision MakingDecoder	CodeCode Available	1
Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation	Sep 20, 2024	Image SegmentationReferring Expression	CodeCode Available	1
A Fast and Accurate One-Stage Approach to Visual Grounding	Aug 18, 2019	Referring ExpressionReferring Expression Comprehension	CodeCode Available	1
Exploring Contextual Attribute Density in Referring Expression Counting	Mar 16, 2025	AttributeReferring Expression	CodeCode Available	1

Show:10 25 50

← PrevPage 2 of 15Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Random	Acc@0.5m	14.6	—	Unverified