Object Recognition

Object recognition is a computer vision technique for detecting + classifying objects in images or videos. Since this is a combined task of object detection plus image classification, the state-of-the-art tables are recorded for each component task here and here.

( Image credit: Tensorflow Object Detection API )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–275 of 2042 papers

Title	Date	Tasks	Status
LM-MCVT: A Lightweight Multi-modal Multi-view Convolutional-Vision Transformer Approach for 3D Object Recognition	Apr 27, 2025	3D Object RecognitionObject	—Unverified
Disaggregated Deep Learning via In-Physics Computing at Radio Frequency	Apr 24, 2025	Autonomous NavigationDeep Learning	—Unverified
V^2R-Bench: Holistically Evaluating LVLM Robustness to Fundamental Visual Variations	Apr 23, 2025	Dataset GenerationObject Recognition	—Unverified
Quantum Doubly Stochastic Transformers	Apr 22, 2025	Inductive BiasObject Recognition	—Unverified
Naturally Computed Scale Invariance in the Residual Stream of ResNet18	Apr 22, 2025	Object Recognition	CodeCode Available
DVLTA-VQA: Decoupled Vision-Language Modeling with Text-Guided Adaptation for Blind Video Quality Assessment	Apr 16, 2025	Language ModelingLanguage Modelling	—Unverified
Visual Language Models show widespread visual deficits on neuropsychological tests	Apr 15, 2025	Object RecognitionVisual Reasoning	—Unverified
MASSeg : 2nd Technical Report for 4th PVUW MOSE Track	Apr 14, 2025	Data AugmentationObject	CodeCode Available
Hardware, Algorithms, and Applications of the Neuromorphic Vision Sensor: a Review	Apr 11, 2025	Object RecognitionOptical Flow Estimation	—Unverified
D-Feat Occlusions: Diffusion Features for Robustness to Partial Visual Occlusions in Object Recognition	Apr 8, 2025	Image GenerationObject	—Unverified
Advancing Egocentric Video Question Answering with Multimodal Large Language Models	Apr 6, 2025	Object RecognitionQuestion Answering	—Unverified
Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users	Mar 28, 2025	Object RecognitionReading Comprehension	—Unverified
ForcePose: A Deep Learning Approach for Force Calculation Based on Action Recognition Using MediaPipe Pose Estimation Combined with Object Detection	Mar 28, 2025	Action RecognitionHuman-Object Interaction Detection	—Unverified
Foveated Instance Segmentation	Mar 27, 2025	Instance SegmentationObject Recognition	CodeCode Available
DuckSegmentation: A segmentation model based on the AnYue Hemp Duck Dataset	Mar 27, 2025	Knowledge DistillationObject Recognition	—Unverified
Leveraging 3D Geometric Priors in 2D Rotation Symmetry Detection	Mar 26, 2025	Object RecognitionSymmetry Detection	—Unverified
MATT-GS: Masked Attention-based 3DGS for Robot Perception and Object Detection	Mar 25, 2025	3DGSobject-detection	—Unverified
Predicting the Road Ahead: A Knowledge Graph based Foundation Model for Scene Understanding in Autonomous Driving	Mar 24, 2025	Autonomous DrivingKnowledge Graphs	—Unverified
Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models	Mar 21, 2025	DiagnosticObject Recognition	—Unverified
TULIP: Towards Unified Language-Image Pretraining	Mar 19, 2025	Contrastive LearningData Augmentation	—Unverified
Augmenting Image Annotation: A Human-LMM Collaborative Framework for Efficient Object Selection and Label Generation	Mar 14, 2025	Object Recognition	—Unverified
OSMa-Bench: Evaluating Open Semantic Mapping Under Varying Lighting Conditions	Mar 13, 2025	Object RecognitionSemantic Segmentation	—Unverified
Seeing What's Not There: Spurious Correlation in Multimodal LLMs	Mar 11, 2025	HallucinationObject	—Unverified
Object-Centric World Model for Language-Guided Manipulation	Mar 8, 2025	Autonomous Drivingmodel	—Unverified
Afford-X: Generalizable and Slim Affordance Reasoning for Task-oriented Manipulation	Mar 5, 2025	ObjectObject Recognition	—Unverified

Show:10 25 50

← PrevPage 11 of 82Next →

All datasets shape bias CIFAR10-DVS N-Caltech 101 ObjectNet (All classes)ObjectNet (ImageNet classes)ObjectNet (ImageNet classes, trained on ImageNet)DVS128 Gesture MECCANO N-CARS

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Imagen	shape bias	98.7	—	Unverified
2	Stable Diffusion	shape bias	92.7	—	Unverified
3	Parti	shape bias	91.7	—	Unverified
4	ViT-22B-384	shape bias	86.4	—	Unverified
5	ViT-22B-560	shape bias	83.8	—	Unverified
6	CLIP (ViT-B)	shape bias	79.9	—	Unverified
7	ViT-22B-224	shape bias	78	—	Unverified
8	ResNet-50 (L2 eps 5.0 adv trained)	shape bias	69.5	—	Unverified
9	ResNet-50 (with strong augmentations)	shape bias	62.2	—	Unverified
10	SWSL (ResNeXt-101)	shape bias	49.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Spike-VGG11	Accuracy (% )	85.55	—	Unverified
2	SSNN	Accuracy (% )	78.57	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Spike-VGG11	Accuracy (% )	85.62	—	Unverified
2	SSNN	Accuracy (% )	79.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ObjectNet-Baseline	Top 5 Accuracy	18.75	—	Unverified
2	yun	Top 5 Accuracy	14.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ObjectNet-Baseline	Top 5 Accuracy	52.24	—	Unverified
2	DY	Top 5 Accuracy	0.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ObjectNet-Baseline	Top 5 Accuracy	52.24	—	Unverified
2	AJ2021	Top 5 Accuracy	27.68	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SSNN	Accuracy (% )	94.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Faster-RCNN	mAP	30.39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Spike-VGG11	Accuracy (% )	96	—	Unverified