Object Recognition

Object recognition is a computer vision technique for detecting + classifying objects in images or videos. Since this is a combined task of object detection plus image classification, the state-of-the-art tables are recorded for each component task here and here.

( Image credit: Tensorflow Object Detection API )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 2042 papers

Title	Date	Tasks	Status
LM-MCVT: A Lightweight Multi-modal Multi-view Convolutional-Vision Transformer Approach for 3D Object Recognition	Apr 27, 2025	3D Object RecognitionObject	—Unverified
Disaggregated Deep Learning via In-Physics Computing at Radio Frequency	Apr 24, 2025	Autonomous NavigationDeep Learning	—Unverified
V^2R-Bench: Holistically Evaluating LVLM Robustness to Fundamental Visual Variations	Apr 23, 2025	Dataset GenerationObject Recognition	—Unverified
Naturally Computed Scale Invariance in the Residual Stream of ResNet18	Apr 22, 2025	Object Recognition	CodeCode Available
Quantum Doubly Stochastic Transformers	Apr 22, 2025	Inductive BiasObject Recognition	—Unverified
DVLTA-VQA: Decoupled Vision-Language Modeling with Text-Guided Adaptation for Blind Video Quality Assessment	Apr 16, 2025	Language ModelingLanguage Modelling	—Unverified
Visual Language Models show widespread visual deficits on neuropsychological tests	Apr 15, 2025	Object RecognitionVisual Reasoning	—Unverified
MASSeg : 2nd Technical Report for 4th PVUW MOSE Track	Apr 14, 2025	Data AugmentationObject	CodeCode Available
Hardware, Algorithms, and Applications of the Neuromorphic Vision Sensor: a Review	Apr 11, 2025	Object RecognitionOptical Flow Estimation	—Unverified
D-Feat Occlusions: Diffusion Features for Robustness to Partial Visual Occlusions in Object Recognition	Apr 8, 2025	Image GenerationObject	—Unverified
Advancing Egocentric Video Question Answering with Multimodal Large Language Models	Apr 6, 2025	Object RecognitionQuestion Answering	—Unverified
Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users	Mar 28, 2025	Object RecognitionReading Comprehension	—Unverified
ForcePose: A Deep Learning Approach for Force Calculation Based on Action Recognition Using MediaPipe Pose Estimation Combined with Object Detection	Mar 28, 2025	Action RecognitionHuman-Object Interaction Detection	—Unverified
Foveated Instance Segmentation	Mar 27, 2025	Instance SegmentationObject Recognition	CodeCode Available
DuckSegmentation: A segmentation model based on the AnYue Hemp Duck Dataset	Mar 27, 2025	Knowledge DistillationObject Recognition	—Unverified
Leveraging 3D Geometric Priors in 2D Rotation Symmetry Detection	Mar 26, 2025	Object RecognitionSymmetry Detection	—Unverified
MATT-GS: Masked Attention-based 3DGS for Robot Perception and Object Detection	Mar 25, 2025	3DGSobject-detection	—Unverified
Predicting the Road Ahead: A Knowledge Graph based Foundation Model for Scene Understanding in Autonomous Driving	Mar 24, 2025	Autonomous DrivingKnowledge Graphs	—Unverified
Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models	Mar 21, 2025	DiagnosticObject Recognition	—Unverified
TULIP: Towards Unified Language-Image Pretraining	Mar 19, 2025	Contrastive LearningData Augmentation	—Unverified
Augmenting Image Annotation: A Human-LMM Collaborative Framework for Efficient Object Selection and Label Generation	Mar 14, 2025	Object Recognition	—Unverified
OSMa-Bench: Evaluating Open Semantic Mapping Under Varying Lighting Conditions	Mar 13, 2025	Object RecognitionSemantic Segmentation	—Unverified
Seeing What's Not There: Spurious Correlation in Multimodal LLMs	Mar 11, 2025	HallucinationObject	—Unverified
Object-Centric World Model for Language-Guided Manipulation	Mar 8, 2025	Autonomous Drivingmodel	—Unverified
Afford-X: Generalizable and Slim Affordance Reasoning for Task-oriented Manipulation	Mar 5, 2025	ObjectObject Recognition	—Unverified
Identity documents recognition and detection using semantic segmentation with convolutional neural network	Mar 3, 2025	Object RecognitionSemantic Segmentation	—Unverified
Deep learning based infrared small object segmentation: Challenges and future directions	Feb 20, 2025	Autonomous VehiclesObject Recognition	—Unverified
RAPTOR: Refined Approach for Product Table Object Recognition	Feb 19, 2025	ObjectObject Recognition	—Unverified
"See the World, Discover Knowledge": A Chinese Factuality Evaluation for Large Vision Language Models	Feb 17, 2025	Object RecognitionQuestion Answering	—Unverified
Revealing Bias Formation in Deep Neural Networks Through the Geometric Mechanisms of Human Visual Decoupling	Feb 17, 2025	ObjectObject Recognition	—Unverified
Occlusion-aware Text-Image-Point Cloud Pretraining for Open-World 3D Object Recognition	Feb 15, 2025	3D Object RecognitionObject Recognition	—Unverified
DCENWCNet: A Deep CNN Ensemble Network for White Blood Cell Classification with LIME-Based Explainability	Feb 8, 2025	Data AugmentationObject Recognition	—Unverified
Unveiling the Potential of iMarkers: Invisible Fiducial Markers for Advanced Robotics	Jan 26, 2025	Object RecognitionScene Understanding	—Unverified
Evaluating Hallucination in Large Vision-Language Models based on Context-Aware Object Similarities	Jan 25, 2025	HallucinationObject	—Unverified
Development of an Inclusive Educational Platform Using Open Technologies and Machine Learning: A Case Study on Accessibility Enhancement	Jan 22, 2025	Object Recognitionspeech-recognition	—Unverified
RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression	Jan 21, 2025	Autonomous DrivingObject Recognition	—Unverified
AI-Powered Assistive Technologies for Visual Impairment	Jan 14, 2025	Object Recognitiontext-to-speech	—Unverified
Towards Zero-Shot & Explainable Video Description by Reasoning over Graphs of Events in Space and Time	Jan 14, 2025	Object RecognitionText Generation	—Unverified
Guided SAM: Label-Efficient Part Segmentation	Jan 13, 2025	ObjectObject Recognition	—Unverified
Hierarchical Superpixel Segmentation via Structural Information Theory	Jan 13, 2025	graph constructiongraph partitioning	CodeCode Available
Perceptual Inductive Bias Is What You Need Before Contrastive Learning	Jan 1, 2025	Contrastive LearningDepth Estimation	—Unverified
Spatial457: A Diagnostic Benchmark for 6D Spatial Reasoning of Large Mutimodal Models	Jan 1, 2025	AttributeDiagnostic	—Unverified
Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering	Dec 30, 2024	Image CaptioningObject Recognition	—Unverified
Sample Correlation for Fingerprinting Deep Face Recognition	Dec 30, 2024	Adversarial DefenseEmotion Recognition	CodeCode Available
AI-based Wearable Vision Assistance System for the Visually Impaired: Integrating Real-Time Object Recognition and Contextual Understanding Using Large Vision-Language Models	Dec 28, 2024	Object RecognitionRaspberry Pi 4	—Unverified
The same but different: impact of animal facility sanitary status on a transgenic mouse model of Alzheimer's disease	Dec 24, 2024	Object Recognition	—Unverified
SilVar: Speech Driven Multimodal Model for Reasoning Visual Question Answering and Object Localization	Dec 21, 2024	Image CaptioningMultimodal Reasoning	CodeCode Available
Real Classification by Description: Extending CLIP's Limits of Part Attributes Recognition	Dec 18, 2024	AttributeDescriptive	CodeCode Available
Targeted View-Invariant Adversarial Perturbations for 3D Object Recognition	Dec 17, 2024	3D Object RecognitionAdversarial Robustness	CodeCode Available
Efficient Oriented Object Detection with Enhanced Small Object Recognition in Aerial Images	Dec 17, 2024	Computational EfficiencyObject	—Unverified

Show:10 25 50

← PrevPage 6 of 41Next →

All datasets shape bias CIFAR10-DVS N-Caltech 101 ObjectNet (All classes)ObjectNet (ImageNet classes)ObjectNet (ImageNet classes, trained on ImageNet)DVS128 Gesture MECCANO N-CARS

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Imagen	shape bias	98.7	—	Unverified
2	Stable Diffusion	shape bias	92.7	—	Unverified
3	Parti	shape bias	91.7	—	Unverified
4	ViT-22B-384	shape bias	86.4	—	Unverified
5	ViT-22B-560	shape bias	83.8	—	Unverified
6	CLIP (ViT-B)	shape bias	79.9	—	Unverified
7	ViT-22B-224	shape bias	78	—	Unverified
8	ResNet-50 (L2 eps 5.0 adv trained)	shape bias	69.5	—	Unverified
9	ResNet-50 (with strong augmentations)	shape bias	62.2	—	Unverified
10	SWSL (ResNeXt-101)	shape bias	49.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Spike-VGG11	Accuracy (% )	85.55	—	Unverified
2	SSNN	Accuracy (% )	78.57	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Spike-VGG11	Accuracy (% )	85.62	—	Unverified
2	SSNN	Accuracy (% )	79.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ObjectNet-Baseline	Top 5 Accuracy	18.75	—	Unverified
2	yun	Top 5 Accuracy	14.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ObjectNet-Baseline	Top 5 Accuracy	52.24	—	Unverified
2	DY	Top 5 Accuracy	0.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ObjectNet-Baseline	Top 5 Accuracy	52.24	—	Unverified
2	AJ2021	Top 5 Accuracy	27.68	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SSNN	Accuracy (% )	94.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Faster-RCNN	mAP	30.39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Spike-VGG11	Accuracy (% )	96	—	Unverified