Image Classification

Image Classification is a fundamental task in vision recognition that aims to understand and categorize an image as a whole under a specific label. Unlike object detection, which involves classification and location of multiple objects within an image, image classification typically pertains to single-object images. When the classification becomes highly detailed or reaches instance-level, it is often referred to as image retrieval, which also involves finding similar images in a large database.

Source: Metamorphic Testing for Object Detection Systems

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 10419 papers

Title	Date	Tasks	Status	Hype
5%>100%: Breaking Performance Shackles of Full Fine-Tuning on Visual Recognition Tasks	Aug 15, 2024	image-classificationImage Classification	CodeCode Available	3
Diffusion Feedback Helps CLIP See Better	Jul 29, 2024	image-classificationImage Classification	CodeCode Available	3
TCFormer: Visual Recognition via Token Clustering Transformer	Jul 16, 2024	Clusteringimage-classification	CodeCode Available	3
xLSTM-UNet can be an Effective 2D & 3D Medical Image Segmentation Backbone with Vision-LSTM (ViL) better than its Mamba Counterpart	Jul 1, 2024	3D Medical Imaging Segmentationimage-classification	CodeCode Available	3
FusionBench: A Comprehensive Benchmark of Deep Model Fusion	Jun 5, 2024	image-classificationImage Classification	CodeCode Available	3
Demystify Mamba in Vision: A Linear Attention Perspective	May 26, 2024	image-classificationImage Classification	CodeCode Available	3
MobileNetV4 -- Universal Models for the Mobile Ecosystem	Apr 16, 2024	Image ClassificationNeural Architecture Search	CodeCode Available	3
RSMamba: Remote Sensing Image Classification with State Space Model	Mar 28, 2024	Classificationimage-classification	CodeCode Available	3
PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition	Mar 26, 2024	Image ClassificationInstance Segmentation	CodeCode Available	3
MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining	Mar 20, 2024	Aerial Scene ClassificationBuilding change detection for remote sensing images	CodeCode Available	3
VisionLLaMA: A Unified LLaMA Backbone for Vision Tasks	Mar 1, 2024	Image ClassificationImage Generation	CodeCode Available	3
Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey	Feb 8, 2024	ArticlesEntity Alignment	CodeCode Available	3
Spikformer V2: Join the High Accuracy Club on ImageNet with an SNN Ticket	Jan 4, 2024	image-classificationImage Classification	CodeCode Available	3
MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices	Dec 28, 2023	AutoMLCPU	CodeCode Available	3
SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery	Dec 15, 2023	Contrastive LearningEarth Observation	CodeCode Available	3
UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition	Nov 27, 2023	Image ClassificationObject Detection	CodeCode Available	3
ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities	May 18, 2023	1 Image, 2*2 StitchiAction Classification	CodeCode Available	3
FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization	Mar 24, 2023	3D Hand Pose EstimationGPU	CodeCode Available	3
Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling	Jan 9, 2023	2D Object DetectionContrastive Learning	CodeCode Available	3
MetaFormer Baselines for Vision	Oct 24, 2022	Domain GeneralizationImage Classification	CodeCode Available	3
Vision-Language Pre-training: Basics, Recent Advances, and Future Trends	Oct 17, 2022	Few-Shot LearningImage Captioning	CodeCode Available	3
Vision Transformers: From Semantic Segmentation to Dense Prediction	Jul 19, 2022	image-classificationImage Classification	CodeCode Available	3
Separable Self-attention for Mobile Vision Transformers	Jun 6, 2022	Image ClassificationObject Detection	CodeCode Available	3
MiniViT: Compressing Vision Transformers with Weight Multiplexing	Apr 14, 2022	DiversityImage Classification	CodeCode Available	3
MaxViT: Multi-Axis Vision Transformer	Apr 4, 2022	image-classificationImage Classification	CodeCode Available	3

Show:10 25 50

← PrevPage 3 of 417Next →

All datasets ImageNet CIFAR-10 CIFAR-100 STL-10 ObjectNet MNIST SVHN iNaturalist 2018 ImageNet ReaL Flowers-102 Clothing1M mini WebVision 1.0

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	CoCa (finetuned)	Top 1 Accuracy	91	—	Unverified
2	Model soups (BASIC-L)	Top 1 Accuracy	90.98	—	Unverified
3	Model soups (ViT-G/14)	Top 1 Accuracy	90.94	—	Unverified
4	DaViT-G	Top 1 Accuracy	90.4	—	Unverified
5	Meta Pseudo Labels (EfficientNet-L2)	Top 1 Accuracy	90.2	—	Unverified
6	DaViT-H	Top 1 Accuracy	90.2	—	Unverified
7	SwinV2-G	Top 1 Accuracy	90.17	—	Unverified
8	MAWS (ViT-6.5B)	Top 1 Accuracy	90.1	—	Unverified
9	Florence-CoSwin-H	Top 1 Accuracy	90.05	—	Unverified
10	RevCol-H	Top 1 Accuracy	90	—	Unverified