Referring Expression Comprehension

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 167 papers

Title	Date	Tasks	Status	Hype
Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone	Jun 15, 2022	Described Object DetectionImage Captioning	CodeCode Available	1
PEVL: Position-enhanced Pre-training and Prompt Tuning for Vision-language Models	May 23, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
A Survivor in the Era of Large-Scale Pretraining: An Empirical Study of One-Stage Referring Expression Comprehension	Apr 17, 2022	Data AugmentationReferring Expression	CodeCode Available	1
ReCLIP: A Strong Zero-Shot Baseline for Referring Expression Comprehension	Apr 12, 2022	image-classificationImage Classification	CodeCode Available	1
SeqTR: A Simple yet Universal Network for Visual Grounding	Mar 30, 2022	DecoderReferring Expression	CodeCode Available	1
Bottom Up Top Down Detection Transformers for Language Grounding in Images and Point Clouds	Dec 16, 2021	Objectobject-detection	CodeCode Available	1
Referring Transformer: A One-step Approach to Multi-task Visual Grounding	Jun 6, 2021	DecoderReferring Expression	CodeCode Available	1
MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding	Apr 26, 2021	Generalized Referring Expression ComprehensionPhrase Grounding	CodeCode Available	1
TransVG: End-to-End Visual Grounding with Transformers	Apr 17, 2021	Referring Expression ComprehensionVisual Grounding	CodeCode Available	1
Unifying Vision-and-Language Tasks via Text Generation	Feb 4, 2021	Conditional Text GenerationDecoder	CodeCode Available	1
TRAR: Routing the Attention Spans in Transformer for Visual Question Answering	Jan 1, 2021	Question AnsweringReferring Expression	CodeCode Available	1
Large-Scale Adversarial Training for Vision-and-Language Representation Learning	Jun 11, 2020	Image-text RetrievalQuestion Answering	CodeCode Available	1
Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation	Mar 19, 2020	Generalized Referring Expression ComprehensionReferring Expression	CodeCode Available	1
UNITER: UNiversal Image-TExt Representation Learning	Sep 25, 2019	Image-text matchingImage-text Retrieval	CodeCode Available	1
Talk2Car: Taking Control of Your Self-Driving Car	Sep 24, 2019	Autonomous DrivingObject	CodeCode Available	1
VL-BERT: Pre-training of Generic Visual-Linguistic Representations	Aug 22, 2019	Image-text matchingLanguage Modelling	CodeCode Available	1
A Fast and Accurate One-Stage Approach to Visual Grounding	Aug 18, 2019	Referring ExpressionReferring Expression Comprehension	CodeCode Available	1
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks	Aug 6, 2019	Image RetrievalQuestion Answering	CodeCode Available	1
Explainable Neural Computation via Stack Neural Module Networks	Jul 23, 2018	Decision MakingQuestion Answering	CodeCode Available	1
Compositional Attention Networks for Machine Reasoning	Mar 8, 2018	Referring Expression ComprehensionVisual Question Answering (VQA)	CodeCode Available	1
Referring Expression Instance Retrieval and A Strong End-to-End Baseline	Jun 23, 2025	Image RetrievalReferring Expression	—Unverified	0
Synthetic Visual Genome	Jun 9, 2025	Referring ExpressionReferring Expression Comprehension	—Unverified	0
WeakMCN: Multi-task Collaborative Network for Weakly Supervised Referring Expression Comprehension and Segmentation	May 24, 2025	Contrastive LearningReferring Expression	CodeCode Available	0
Beyond Object Categories: Multi-Attribute Reference Understanding for Visual Grounding	Mar 25, 2025	AttributeObject	—Unverified	0
GeoRSMLLM: A Multimodal Large Language Model for Vision-Language Tasks in Geoscience and Remote Sensing	Mar 16, 2025	Change DetectionImage Captioning	—Unverified	0

Show:10 25 50

← PrevPage 3 of 7Next →

No leaderboard results yet.