Referring Expression Comprehension

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 167 papers

Title	Date	Tasks	Status	Hype
Referring Expression Instance Retrieval and A Strong End-to-End Baseline	Jun 23, 2025	Image RetrievalReferring Expression	—Unverified	0
Synthetic Visual Genome	Jun 9, 2025	Referring ExpressionReferring Expression Comprehension	—Unverified	0
TextRegion: Text-Aligned Region Tokens from Frozen Image-Text Models	May 29, 2025	Referring ExpressionReferring Expression Comprehension	CodeCode Available	2
WeakMCN: Multi-task Collaborative Network for Weakly Supervised Referring Expression Comprehension and Segmentation	May 24, 2025	Contrastive LearningReferring Expression	CodeCode Available	0
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model	Apr 10, 2025	Language ModelingLanguage Modelling	CodeCode Available	9
Beyond Object Categories: Multi-Attribute Reference Understanding for Visual Grounding	Mar 25, 2025	AttributeObject	—Unverified	0
GeoRSMLLM: A Multimodal Large Language Model for Vision-Language Tasks in Geoscience and Remote Sensing	Mar 16, 2025	Change DetectionImage Captioning	—Unverified	0
New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration	Feb 27, 2025	Image ComprehensionReferring Expression	CodeCode Available	1
Exploring Spatial Language Grounding Through Referring Expressions	Feb 4, 2025	Image CaptioningNegation	—Unverified	0
RefDrone: A Challenging Benchmark for Referring Expression Comprehension in Drone Scenes	Feb 1, 2025	Referring ExpressionReferring Expression Comprehension	CodeCode Available	1
FLORA: Formal Language Model Enables Robust Training-free Zero-shot Object Referring Analysis	Jan 17, 2025	Bayesian InferenceLanguage Modeling	—Unverified	0
Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks	Jan 14, 2025	Language ModelingLanguage Modelling	—Unverified	0
Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints	Jan 12, 2025	Image SegmentationReferring Expression	CodeCode Available	1
Hierarchical Alignment-enhanced Adaptive Grounding Network for Generalized Referring Expression Comprehension	Jan 2, 2025	Generalized Referring Expression ComprehensionGeneralized Referring Expression Segmentation	—Unverified	0
Task-aware Cross-modal Feature Refinement Transformer with Large Language Models for Visual Grounding	Jan 1, 2025	Referring ExpressionReferring Expression Comprehension	—Unverified	0
DViN: Dynamic Visual Routing Network for Weakly Supervised Referring Expression Comprehension	Jan 1, 2025	DescriptiveReferring Expression	—Unverified	0
Towards Visual Grounding: A Survey	Dec 28, 2024	Phrase GroundingReferring Expression	CodeCode Available	3
DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding	Dec 13, 2024	Chart UnderstandingMixture-of-Experts	CodeCode Available	9
Harlequin: Color-driven Generation of Synthetic Data for Referring Expression Comprehension	Nov 22, 2024	Referring ExpressionReferring Expression Comprehension	—Unverified	0
Frontiers in Intelligent Colonoscopy	Oct 22, 2024	Image Captioning	CodeCode Available	2
Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models	Oct 21, 2024	Instruction Followingobject-detection	—Unverified	0
SimVG: A Simple Framework for Visual Grounding with Decoupled Multi-modal Fusion	Sep 26, 2024	DescriptiveGeneralized Referring Expression Comprehension	CodeCode Available	2
Uni-Med: A Unified Medical Generalist Foundation Model For Multi-Task Learning Via Connector-MoE	Sep 26, 2024	image-classificationImage Classification	CodeCode Available	1
FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension	Sep 23, 2024	Image ComprehensionReferring Expression	CodeCode Available	1
MaPPER: Multimodal Prior-guided Parameter Efficient Tuning for Referring Expression Comprehension	Sep 20, 2024	cross-modal alignmentReferring Expression	CodeCode Available	1
LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Models for Referring Expression Comprehension	Sep 18, 2024	Referring ExpressionReferring Expression Comprehension	CodeCode Available	1
Make Graph-based Referring Expression Comprehension Great Again through Expression-guided Dynamic Gating and Regression	Sep 5, 2024	Referring ExpressionReferring Expression Comprehension	—Unverified	0
A Lightweight Modular Framework for Low-Cost Open-Vocabulary Object Detection Training	Aug 20, 2024	Autonomous VehiclesComputational Efficiency	CodeCode Available	0
Revisiting Multi-Modal LLM Evaluation	Aug 9, 2024	Chart UnderstandingOptical Character Recognition	—Unverified	0
MaskInversion: Localized Embeddings via Optimization of Explainability Maps	Jul 29, 2024	Image GenerationReferring Expression	—Unverified	0
Learning Visual Grounding from Generative Vision and Language Model	Jul 18, 2024	AttributeLanguage Modeling	—Unverified	0
Multi-branch Collaborative Learning Network for 3D Visual Grounding	Jul 7, 2024	3D visual groundingReferring Expression	CodeCode Available	1
The Solution for the 5th GCAIAC Zero-shot Referring Expression Comprehension Challenge	Jul 6, 2024	Referring ExpressionReferring Expression Comprehension	—Unverified	0
M^2IST: Multi-Modal Interactive Side-Tuning for Efficient Referring Expression Comprehension	Jul 1, 2024	GPUReferring Expression	—Unverified	0
Segment Anything Model for automated image data annotation: empirical studies using text prompts from Grounding DINO	Jun 27, 2024	Image SegmentationMedical Image Segmentation	—Unverified	0
ScanFormer: Referring Expression Comprehension by Iteratively Scanning	Jun 26, 2024	InformativenessReferring Expression	—Unverified	0
Revisiting Referring Expression Comprehension Evaluation in the Era of Large Multimodal Models	Jun 24, 2024	Referring ExpressionReferring Expression Comprehension	CodeCode Available	2
Talk2Radar: Bridging Natural Language with 4D mmWave Radar for 3D Referring Expression Comprehension	May 21, 2024	3D visual groundingReferring Expression	CodeCode Available	1
Adversarial Robustness for Visual Grounding of Multimodal Large Language Models	May 16, 2024	Adversarial AttackAdversarial Robustness	CodeCode Available	0
Text-driven Affordance Learning from Egocentric Vision	Apr 3, 2024	Referring ExpressionReferring Expression Comprehension	—Unverified	0
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models	Mar 27, 2024	Image ClassificationImage Comprehension	CodeCode Available	7
PropTest: Automatic Property Testing for Improved Visual Programming	Mar 25, 2024	Question AnsweringReferring Expression	—Unverified	0
Elysium: Exploring Object-level Perception in Videos via MLLM	Mar 25, 2024	ObjectObject Tracking	CodeCode Available	2
DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM	Mar 19, 2024	Objectobject-detection	CodeCode Available	1
WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar	Mar 19, 2024	Autonomous NavigationReferring Expression	—Unverified	0
Contrastive Region Guidance: Improving Grounding in Vision-Language Models without Training	Mar 4, 2024	MathPhrase Grounding	—Unverified	0
Efficient Multimodal Learning from Data-centric Perspective	Feb 18, 2024	Image ClassificationReferring Expression Comprehension	CodeCode Available	5
LLMs as Bridges: Reformulating Grounded Multimodal Named Entity Recognition	Feb 15, 2024	Grounded Multimodal Named Entity RecognitionMulti-modal Named Entity Recognition	CodeCode Available	1
An Open and Comprehensive Pipeline for Unified Object Grounding and Detection	Jan 4, 2024	Described Object DetectionPhrase Grounding	CodeCode Available	1
Revisiting Counterfactual Problems in Referring Expression Comprehension	Jan 1, 2024	AttributeContrastive Learning	CodeCode Available	0

Show:10 25 50

← PrevPage 1 of 4Next →

No leaderboard results yet.