Object Localization

Object Localization is the task of locating an instance of a particular object category in an image, typically by specifying a tightly cropped bounding box centered on the instance. An object proposal specifies a candidate bounding box, and an object proposal is said to be a correct localization if it sufficiently overlaps a human-labeled “ground-truth” bounding box for the given object. In the literature, the “Object Localization” task is to locate one instance of an object category, whereas “object detection” focuses on locating all instances of a category in a given image.

Source: Fast On-Line Kernel Density Estimation for Active Object Localization

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 617 papers

Title	Date	Tasks	Status	Hype
Mask-aware Text-to-Image Retrieval: Referring Expression Segmentation Meets Cross-modal Retrieval	Jun 28, 2025	Cross-Modal RetrievalImage Captioning	—Unverified	0
VoteSplat: Hough Voting Gaussian Splatting for 3D Scene Understanding	Jun 28, 2025	3DGSInstance Segmentation	—Unverified	0
RAG-6DPose: Retrieval-Augmented 6D Pose Estimation via Leveraging CAD as Knowledge Base	Jun 23, 2025	6D Pose EstimationObject Localization	—Unverified	0
CDP: Towards Robust Autoregressive Visuomotor Policy Learning via Causal Diffusion	Jun 17, 2025	Object Localization	—Unverified	0
UAV Object Detection and Positioning in a Mining Industrial Metaverse with Custom Geo-Referenced Data	Jun 16, 2025	3D Reconstructionobject-detection	—Unverified	0
WoMAP: World Models For Embodied Open-Vocabulary Object Localization	Jun 2, 2025	Active Object LocalizationEfficient Exploration	—Unverified	0
Multispectral Detection Transformer with Infrared-Centric Sensor Fusion	May 21, 2025	Multispectral Object DetectionObject	CodeCode Available	0
Ground-V: Teaching VLMs to Ground Complex Instructions in Pixels	May 20, 2025	Instruction FollowingKnowledge Distillation	—Unverified	0
Towards Omnidirectional Reasoning with 360-R1: A Dataset, Benchmark, and GRPO-based Method	May 20, 2025	HallucinationObject Localization	—Unverified	0
PointArena: Probing Multimodal Grounding Through Language-Guided Pointing	May 15, 2025	Object Localization	—Unverified	0
Extending Large Vision-Language Model for Diverse Interactive Tasks in Autonomous Driving	May 13, 2025	3D visual groundingAutonomous Driving	CodeCode Available	1
Towards Accurate State Estimation: Kalman Filter Incorporating Motion Dynamics for 3D Multi-Object Tracking	May 12, 2025	3D Multi-Object TrackingMulti-Object Tracking	—Unverified	0
Enhancing Satellite Object Localization with Dilated Convolutions and Attention-aided Spatial Pooling	May 8, 2025	feature selectionObject	CodeCode Available	0
Split Matching for Inductive Zero-shot Semantic Segmentation	May 8, 2025	Object LocalizationSemantic Segmentation	—Unverified	0
Pro2SAM: Mask Prompt to SAM with Grid Points for Weakly Supervised Object Localization	May 8, 2025	Object LocalizationWeakly-Supervised Object Localization	—Unverified	0
Exploring Modality Guidance to Enhance VFM-based Feature Fusion for UDA in 3D Semantic Segmentation	Apr 19, 2025	3D Semantic Segmentationimage-classification	—Unverified	0
Locate 3D: Real-World Object Localization via Self-Supervised Learning in 3D	Apr 19, 2025	DecoderObject Localization	CodeCode Available	3
CFIS-YOLO: A Lightweight Multi-Scale Fusion Network for Edge-Deployable Wood Defect Detection	Apr 15, 2025	Computational EfficiencyDefect Detection	—Unverified	0
SoccerNet-v3D: Leveraging Sports Broadcast Replays for 3D Scene Understanding	Apr 14, 2025	Camera CalibrationObject Localization	CodeCode Available	1
Foundation Models for Remote Sensing: An Analysis of MLLMs for Object Localization	Apr 14, 2025	BenchmarkingEarth Observation	—Unverified	0
Multi-Object Grounding via Hierarchical Contrastive Siamese Transformers	Apr 14, 2025	ObjectObject Localization	—Unverified	0
POEM: Precise Object-level Editing via MLLM control	Apr 10, 2025	Image GenerationObject	—Unverified	0
MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing	Mar 31, 2025	Objectobject-detection	CodeCode Available	0
Texture or Semantics? Vision-Language Models Get Lost in Font Recognition	Mar 31, 2025	Few-Shot LearningFont Recognition	CodeCode Available	0
PixelCAM: Pixel Class Activation Mapping for Histology Image Classification and ROI Localization	Mar 31, 2025	image-classificationImage Classification	CodeCode Available	0
GLRD: Global-Local Collaborative Reason and Debate with PSL for 3D Open-Vocabulary Detection	Mar 26, 2025	Common Sense ReasoningObject	—Unverified	0
Beyond Object Categories: Multi-Attribute Reference Understanding for Visual Grounding	Mar 25, 2025	AttributeObject	—Unverified	0
xMOD: Cross-Modal Distillation for 2D/3D Multi-Object Discovery from 2D motion	Mar 19, 2025	Multi-object discoveryObject	CodeCode Available	0
Omnidirectional Multi-Object Tracking	Mar 6, 2025	Multi-Object TrackingObject	CodeCode Available	2
Dr. Splat: Directly Referring 3D Gaussian Splatting via Direct Language Embedding Registration	Feb 23, 2025	3DGS3D Semantic Segmentation	—Unverified	0
CrossOver: 3D Scene Cross-Modal Alignment	Feb 20, 2025	cross-modal alignmentObject	CodeCode Available	3
Qwen2.5-VL Technical Report	Feb 19, 2025	document understanding	CodeCode Available	11
MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval	Feb 18, 2025	Action RecognitionMoment Retrieval	—Unverified	0
Auto-Prompting SAM for Weakly Supervised Landslide Extraction	Jan 23, 2025	Landslide segmentationObject Localization	—Unverified	0
TeD-Loc: Text Distillation for Weakly Supervised Object Localization	Jan 22, 2025	ClassificationDenoising	CodeCode Available	0
Neuromorphic Optical Tracking and Imaging of Randomly Moving Targets through Strongly Scattering Media	Jan 7, 2025	Computational EfficiencyImage Reconstruction	—Unverified	0
AuxDepthNet: Real-Time Monocular 3D Object Detection with Depth-Sensitive Features	Jan 7, 2025	3D Object DetectionComputational Efficiency	—Unverified	0
Cross-Modal Distillation for 2D/3D Multi-Object Discovery from 2D Motion	Jan 1, 2025	Multi-object discoveryObject	—Unverified	0
SilVar: Speech Driven Multimodal Model for Reasoning Visual Question Answering and Object Localization	Dec 21, 2024	Image CaptioningMultimodal Reasoning	CodeCode Available	0
Demystifying the Potential of ChatGPT-4 Vision for Construction Progress Monitoring	Dec 20, 2024	Object Localization	—Unverified	0
SuperGSeg: Open-Vocabulary 3D Segmentation with Structured Super-Gaussians	Dec 13, 2024	GPUObject Localization	—Unverified	0
Agent Journey Beyond RGB: Unveiling Hybrid Semantic-Spatial Environmental Representations for Vision-and-Language Navigation	Dec 9, 2024	Object LocalizationVision and Language Navigation	CodeCode Available	1
3D Spatial Understanding in MLLMs: Disambiguation and Evaluation	Dec 9, 2024	3D dense captioning3D visual grounding	—Unverified	0
RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts	Dec 7, 2024	Change DetectionImage Comprehension	CodeCode Available	1
SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding	Dec 5, 2024	3D visual groundingObject Localization	—Unverified	0
GraPix: Exploring Graph Modularity Optimization for Unsupervised Pixel Clustering	Dec 4, 2024	AttributeClustering	CodeCode Available	0
RELOCATE: A Simple Training-Free Baseline for Visual Query Localization Using Region-Based Representations	Dec 2, 2024	Object Localization	—Unverified	0
SpaRC: Sparse Radar-Camera Fusion for 3D Object Detection	Nov 29, 2024	3D Multi-Object Tracking3D Object Detection	CodeCode Available	0
ObjectRelator: Enabling Cross-View Object Relation Understanding in Ego-Centric and Exo-Centric Videos	Nov 28, 2024	ObjectObject Localization	—Unverified	0
GloFinder: AI-empowered QuPath Plugin for WSI-level Glomerular Detection, Visualization, and Curation	Nov 27, 2024	Object Localizationwhole slide images	—Unverified	0

Show:10 25 50

← PrevPage 1 of 13Next →

All datasets REVERIE KITTI Cars Easy KITTI Pedestrians Hard KITTI Pedestrians Moderate KITTI Cars Hard KITTI Cyclists Easy KITTI Cyclists Moderate KITTI Pedestrians Easy GRIT KITTI Cyclists Hard IllusionVQA KITTI Cars Moderate

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	OSMaN	RGSPL	32.99	—	Unverified
2	SUSA	RGSPL	27.31	—	Unverified
3	Shanks	RGSPL	22.85	—	Unverified
4	CVPR22	RGSPL	22.06	—	Unverified
5	damm1	RGSPL	15.96	—	Unverified
6	1637	RGSPL	14.03	—	Unverified
7	init. PREVALENT	RGSPL	13.51	—	Unverified
8	Airbert	RGSPL	13.28	—	Unverified
9	init. OSCAR	RGSPL	10	—	Unverified
10	SIA	RGSPL	9.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VoxelNet	AP	89.35	—	Unverified
2	VoxelNet	AP	89.35	—	Unverified
3	Frustum PointNets	AP	88.7	—	Unverified
4	Frustum PointNets	AP	81.2	—	Unverified
5	VoxelNet	AP	77.47	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Frustrum-PointPillars	AP	48.3	—	Unverified
2	Frustum PointNets	AP	47.2	—	Unverified
3	Frustum PointNets	AP	40.23	—	Unverified
4	VoxelNet	AP	38.11	—	Unverified
5	VoxelNet	AP	31.51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Frustrum-PointPillars	AP	52.23	—	Unverified
2	Frustum PointNets	AP	50.22	—	Unverified
3	Frustum PointNets	AP	42.15	—	Unverified
4	VoxelNet	AP	40.74	—	Unverified
5	VoxelNet	AP	33.69	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VoxelNet	AP	77.39	—	Unverified
2	Frustum PointNets	AP	75.33	—	Unverified
3	Frustum PointNets	AP	62.19	—	Unverified
4	VoxelNet	AP	57.73	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Frustum PointNets	AP	75.38	—	Unverified
2	Frustum PointNets	AP	71.96	—	Unverified
3	VoxelNet	AP	66.7	—	Unverified
4	VoxelNet	AP	61.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Frustum PointNets	AP	61.96	—	Unverified
2	Frustum PointNets	AP	56.77	—	Unverified
3	VoxelNet	AP	54.76	—	Unverified
4	VoxelNet	AP	48.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Frustum PointNets	AP	58.09	—	Unverified
2	Frustum PointNets	AP	51.21	—	Unverified
3	VoxelNet	AP	46.13	—	Unverified
4	VoxelNet	AP	39.48	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Unified-IOXL	Localization (ablation)	67	—	Unverified
2	GPV-2	Localization (ablation)	53.6	—	Unverified
3	Mask R-CNN	Localization (ablation)	44.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Frustum PointNets	AP	54.68	—	Unverified
2	VoxelNe	AP	50.55	—	Unverified
3	Frustum PointNets	AP	50.39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4-Vision 4-shot+CoT	Accuracy	49.7	—	Unverified
2	Gemini-Pro 4-shot+CoT	Accuracy	33.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Frustum PointNets	AP	84	—	Unverified
2	VoxelNet	AP	79.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Frustrum-PointPillars	AP	60.98	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hausdorff Loss	Precision	88.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ours	CorLoc	41.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ours	CorLoc	47.45	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hausdorff Loss	F-Score	88.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hausdorff Loss	Recall	89.2	—	Unverified