Object Recognition

Object recognition is a computer vision technique for detecting + classifying objects in images or videos. Since this is a combined task of object detection plus image classification, the state-of-the-art tables are recorded for each component task here and here.

( Image credit: Tensorflow Object Detection API )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 2042 papers

Title	Date	Tasks	Status	Hype
GeoMag: A Vision-Language Model for Pixel-level Fine-Grained Remote Sensing Image Parsing	Jul 8, 2025	Language ModelingLanguage Modelling	—Unverified	0
Out-of-distribution detection in 3D applications: a review	Jul 1, 2025	Autonomous DrivingNavigate	—Unverified	0
SASep: Saliency-Aware Structured Separation of Geometry and Feature for Open Set Learning on Point Clouds	Jun 16, 2025	3D Object RecognitionObject Recognition	CodeCode Available	0
Continual Hyperbolic Learning of Instances and Classes	Jun 12, 2025	Continual LearningObject Recognition	—Unverified	0
DCIRNet: Depth Completion with Iterative Refinement for Dexterous Grasping of Transparent and Reflective Objects	Jun 11, 2025	Depth CompletionDepth Estimation	—Unverified	0
Aligning Text, Images, and 3D Structure Token-by-Token	Jun 9, 2025	3D Object RecognitionInstruction Following	—Unverified	0
STSBench: A Spatio-temporal Scenario Benchmark for Multi-modal Large Language Models in Autonomous Driving	Jun 6, 2025	Autonomous DrivingAutonomous Vehicles	CodeCode Available	1
Feature-Based Lie Group Transformer for Real-World Applications	Jun 5, 2025	ObjectObject Recognition	—Unverified	0
EV-Flying: an Event-based Dataset for In-The-Wild Recognition of Flying Objects	Jun 4, 2025	Event-based visionObject Recognition	—Unverified	0
Explicitly Modeling Subcortical Vision with a Neuro-Inspired Front-End Improves CNN Robustness	Jun 3, 2025	Data AugmentationObject Recognition	—Unverified	0
Efficient Estimation of Regularized Tyler's M-Estimator Using Approximate LOOCV	May 30, 2025	Face RecognitionObject Recognition	—Unverified	0
TrackVLA: Embodied Visual Tracking in the Wild	May 29, 2025	Language ModelingLanguage Modelling	—Unverified	0
SHTOcc: Effective 3D Occupancy Prediction with Sparse Head and Tail Voxels	May 28, 2025	Autonomous DrivingGPU	CodeCode Available	0
ADD-SLAM: Adaptive Dynamic Dense SLAM with Gaussian Splatting	May 26, 2025	NeRFobject-detection	—Unverified	0
Detailed Evaluation of Modern Machine Learning Approaches for Optic Plastics Sorting	May 22, 2025	Instance SegmentationObject Recognition	—Unverified	0
RAZER: Robust Accelerated Zero-Shot 3D Open-Vocabulary Panoptic Reconstruction with Spatio-Temporal Aggregation	May 21, 2025	GPUNatural Language Queries	—Unverified	0
InstructSAM: A Training-Free Framework for Instruction-Oriented Remote Sensing Object Recognition	May 21, 2025	Earth ObservationObject	CodeCode Available	2
Refining Neural Activation Patterns for Layer-Level Concept Discovery in Neural Network-Based Receivers	May 21, 2025	ClusteringObject Recognition	—Unverified	0
PLAICraft: Large-Scale Time-Aligned Vision-Speech-Action Dataset for Embodied AI	May 19, 2025	BenchmarkingMinecraft	—Unverified	0
ViEEG: Hierarchical Neural Coding with Cross-Modal Progressive Enhancement for EEG-Based Visual Decoding	May 18, 2025	Brain DecodingContrastive Learning	—Unverified	0
Model alignment using inter-modal bridges	May 18, 2025	Image Generationmodel	—Unverified	0
AW-GATCN: Adaptive Weighted Graph Attention Convolutional Network for Event Camera Data Joint Denoising and Object Recognition	May 16, 2025	DenoisingEvent Segmentation	—Unverified	0
A Light and Smart Wearable Platform with Multimodal Foundation Model for Enhanced Spatial Reasoning in People with Blindness and Low Vision	May 16, 2025	Large Language ModelNavigate	—Unverified	0
MIRAGE: A Multi-modal Benchmark for Spatial Perception, Reasoning, and Intelligence	May 15, 2025	AttributeObject	—Unverified	0
Improving Unsupervised Task-driven Models of Ventral Visual Stream via Relative Position Predictivity	May 13, 2025	Contrastive LearningObject	CodeCode Available	0
Topology-Guided Knowledge Distillation for Efficient Point Cloud Processing	May 12, 2025	3D Object RecognitionAutonomous Driving	CodeCode Available	0
Visually Interpretable Subtask Reasoning for Visual Question Answering	May 12, 2025	AttributeObject Recognition	CodeCode Available	0
ArtRAG: Retrieval-Augmented Generation with Structured Context for Visual Art Understanding	May 9, 2025	Image CaptioningObject Recognition	—Unverified	0
Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models	May 3, 2025	DiagnosticObject Recognition	—Unverified	0
Transferable Adversarial Attacks on Black-Box Vision-Language Models	May 2, 2025	Image CaptioningObject Recognition	—Unverified	0
Zoomer: Adaptive Image Focus Optimization for Black-box MLLM	Apr 30, 2025	Image CaptioningObject Recognition	—Unverified	0
LM-MCVT: A Lightweight Multi-modal Multi-view Convolutional-Vision Transformer Approach for 3D Object Recognition	Apr 27, 2025	3D Object RecognitionObject	—Unverified	0
Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency	Apr 24, 2025	BenchmarkingMath	CodeCode Available	1
Disaggregated Deep Learning via In-Physics Computing at Radio Frequency	Apr 24, 2025	Autonomous NavigationDeep Learning	—Unverified	0
V^2R-Bench: Holistically Evaluating LVLM Robustness to Fundamental Visual Variations	Apr 23, 2025	Dataset GenerationObject Recognition	—Unverified	0
Naturally Computed Scale Invariance in the Residual Stream of ResNet18	Apr 22, 2025	Object Recognition	CodeCode Available	0
Quantum Doubly Stochastic Transformers	Apr 22, 2025	Inductive BiasObject Recognition	—Unverified	0
Taccel: Scaling Up Vision-based Tactile Robotics via High-performance GPU Simulation	Apr 17, 2025	GPUObject Recognition	CodeCode Available	2
DVLTA-VQA: Decoupled Vision-Language Modeling with Text-Guided Adaptation for Blind Video Quality Assessment	Apr 16, 2025	Language ModelingLanguage Modelling	—Unverified	0
Visual Language Models show widespread visual deficits on neuropsychological tests	Apr 15, 2025	Object RecognitionVisual Reasoning	—Unverified	0
MASSeg : 2nd Technical Report for 4th PVUW MOSE Track	Apr 14, 2025	Data AugmentationObject	CodeCode Available	0
Hardware, Algorithms, and Applications of the Neuromorphic Vision Sensor: a Review	Apr 11, 2025	Object RecognitionOptical Flow Estimation	—Unverified	0
P2Object: Single Point Supervised Object Detection and Instance Segmentation	Apr 10, 2025	Instance SegmentationMultiple Instance Learning	CodeCode Available	2
D-Feat Occlusions: Diffusion Features for Robustness to Partial Visual Occlusions in Object Recognition	Apr 8, 2025	Image GenerationObject	—Unverified	0
Advancing Egocentric Video Question Answering with Multimodal Large Language Models	Apr 6, 2025	Object RecognitionQuestion Answering	—Unverified	0
ForcePose: A Deep Learning Approach for Force Calculation Based on Action Recognition Using MediaPipe Pose Estimation Combined with Object Detection	Mar 28, 2025	Action RecognitionHuman-Object Interaction Detection	—Unverified	0
Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users	Mar 28, 2025	Object RecognitionReading Comprehension	—Unverified	0
Foveated Instance Segmentation	Mar 27, 2025	Instance SegmentationObject Recognition	CodeCode Available	0
DuckSegmentation: A segmentation model based on the AnYue Hemp Duck Dataset	Mar 27, 2025	Knowledge DistillationObject Recognition	—Unverified	0
Leveraging 3D Geometric Priors in 2D Rotation Symmetry Detection	Mar 26, 2025	Object RecognitionSymmetry Detection	—Unverified	0

Show:10 25 50

← PrevPage 1 of 41Next →

All datasets shape bias CIFAR10-DVS N-Caltech 101 ObjectNet (All classes)ObjectNet (ImageNet classes)ObjectNet (ImageNet classes, trained on ImageNet)DVS128 Gesture MECCANO N-CARS

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Imagen	shape bias	98.7	—	Unverified
2	Stable Diffusion	shape bias	92.7	—	Unverified
3	Parti	shape bias	91.7	—	Unverified
4	ViT-22B-384	shape bias	86.4	—	Unverified
5	ViT-22B-560	shape bias	83.8	—	Unverified
6	CLIP (ViT-B)	shape bias	79.9	—	Unverified
7	ViT-22B-224	shape bias	78	—	Unverified
8	ResNet-50 (L2 eps 5.0 adv trained)	shape bias	69.5	—	Unverified
9	ResNet-50 (with strong augmentations)	shape bias	62.2	—	Unverified
10	SWSL (ResNeXt-101)	shape bias	49.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Spike-VGG11	Accuracy (% )	85.55	—	Unverified
2	SSNN	Accuracy (% )	78.57	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Spike-VGG11	Accuracy (% )	85.62	—	Unverified
2	SSNN	Accuracy (% )	79.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ObjectNet-Baseline	Top 5 Accuracy	18.75	—	Unverified
2	yun	Top 5 Accuracy	14.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ObjectNet-Baseline	Top 5 Accuracy	52.24	—	Unverified
2	DY	Top 5 Accuracy	0.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ObjectNet-Baseline	Top 5 Accuracy	52.24	—	Unverified
2	AJ2021	Top 5 Accuracy	27.68	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SSNN	Accuracy (% )	94.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Faster-RCNN	mAP	30.39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Spike-VGG11	Accuracy (% )	96	—	Unverified