Image Classification

Image Classification is a fundamental task in vision recognition that aims to understand and categorize an image as a whole under a specific label. Unlike object detection, which involves classification and location of multiple objects within an image, image classification typically pertains to single-object images. When the classification becomes highly detailed or reaches instance-level, it is often referred to as image retrieval, which also involves finding similar images in a large database.

Source: Metamorphic Testing for Object Detection Systems

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 10419 papers

Title	Date	Tasks	Status	Hype
5%>100%: Breaking Performance Shackles of Full Fine-Tuning on Visual Recognition Tasks	Aug 15, 2024	image-classificationImage Classification	CodeCode Available	3
Diffusion Feedback Helps CLIP See Better	Jul 29, 2024	image-classificationImage Classification	CodeCode Available	3
TCFormer: Visual Recognition via Token Clustering Transformer	Jul 16, 2024	Clusteringimage-classification	CodeCode Available	3
xLSTM-UNet can be an Effective 2D & 3D Medical Image Segmentation Backbone with Vision-LSTM (ViL) better than its Mamba Counterpart	Jul 1, 2024	3D Medical Imaging Segmentationimage-classification	CodeCode Available	3
FusionBench: A Comprehensive Benchmark of Deep Model Fusion	Jun 5, 2024	image-classificationImage Classification	CodeCode Available	3
Demystify Mamba in Vision: A Linear Attention Perspective	May 26, 2024	image-classificationImage Classification	CodeCode Available	3
MobileNetV4 -- Universal Models for the Mobile Ecosystem	Apr 16, 2024	Image ClassificationNeural Architecture Search	CodeCode Available	3
RSMamba: Remote Sensing Image Classification with State Space Model	Mar 28, 2024	Classificationimage-classification	CodeCode Available	3
PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition	Mar 26, 2024	Image ClassificationInstance Segmentation	CodeCode Available	3
MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining	Mar 20, 2024	Aerial Scene ClassificationBuilding change detection for remote sensing images	CodeCode Available	3
VisionLLaMA: A Unified LLaMA Backbone for Vision Tasks	Mar 1, 2024	Image ClassificationImage Generation	CodeCode Available	3
Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey	Feb 8, 2024	ArticlesEntity Alignment	CodeCode Available	3
Spikformer V2: Join the High Accuracy Club on ImageNet with an SNN Ticket	Jan 4, 2024	image-classificationImage Classification	CodeCode Available	3
MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices	Dec 28, 2023	AutoMLCPU	CodeCode Available	3
SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery	Dec 15, 2023	Contrastive LearningEarth Observation	CodeCode Available	3
UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition	Nov 27, 2023	Image ClassificationObject Detection	CodeCode Available	3
ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities	May 18, 2023	1 Image, 2*2 StitchiAction Classification	CodeCode Available	3
FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization	Mar 24, 2023	3D Hand Pose EstimationGPU	CodeCode Available	3
Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling	Jan 9, 2023	2D Object DetectionContrastive Learning	CodeCode Available	3
MetaFormer Baselines for Vision	Oct 24, 2022	Domain GeneralizationImage Classification	CodeCode Available	3
Vision-Language Pre-training: Basics, Recent Advances, and Future Trends	Oct 17, 2022	Few-Shot LearningImage Captioning	CodeCode Available	3
Vision Transformers: From Semantic Segmentation to Dense Prediction	Jul 19, 2022	image-classificationImage Classification	CodeCode Available	3
Separable Self-attention for Mobile Vision Transformers	Jun 6, 2022	Image ClassificationObject Detection	CodeCode Available	3
MiniViT: Compressing Vision Transformers with Weight Multiplexing	Apr 14, 2022	DiversityImage Classification	CodeCode Available	3
MaxViT: Multi-Axis Vision Transformer	Apr 4, 2022	image-classificationImage Classification	CodeCode Available	3
Visual Prompt Tuning	Mar 23, 2022	Image ClassificationLong-tail Learning	CodeCode Available	3
QOC: Quantum On-Chip Training with Parameter Shift and Gradient Pruning	Feb 26, 2022	image-classificationImage Classification	CodeCode Available	3
DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generation Models	Feb 8, 2022	DiagnosticImage Captioning	CodeCode Available	3
Patches Are All You Need?	Jan 24, 2022	AllImage Classification	CodeCode Available	3
Transformers in Medical Imaging: A Survey	Jan 24, 2022	Image ClassificationImage Segmentation	CodeCode Available	3
Detecting Twenty-thousand Classes using Image-level Supervision	Jan 7, 2022	Cross-Domain Few-Shot Object Detectionimage-classification	CodeCode Available	3
Datasets: A Community Library for Natural Language Processing	Sep 7, 2021	Image ClassificationObject Recognition	CodeCode Available	3
XCiT: Cross-Covariance Image Transformers	Jun 17, 2021	image-classificationImage Classification	CodeCode Available	3
EfficientNetV2: Smaller Models and Faster Training	Apr 1, 2021	AutoMLClassification	CodeCode Available	3
U^2-Net: Going Deeper with Nested U-Structure for Salient Object Detection	May 18, 2020	Dichotomous Image SegmentationGPU	CodeCode Available	3
ResNeSt: Split-Attention Networks	Apr 19, 2020	image-classificationImage Classification	CodeCode Available	3
Momentum Contrast for Unsupervised Visual Representation Learning	Nov 13, 2019	Contrastive LearningImage Classification	CodeCode Available	3
Ludwig: a type-based declarative deep learning toolbox	Sep 17, 2019	DecoderDeep Learning	CodeCode Available	3
EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks	May 28, 2019	Action RecognitionDomain Generalization	CodeCode Available	3
Bag of Freebies for Training Object Detection Neural Networks	Feb 11, 2019	General Classificationimage-classification	CodeCode Available	3
AutoAugment: Learning Augmentation Policies from Data	May 24, 2018	Data AugmentationDomain Generalization	CodeCode Available	3
GeoVision Labeler: Zero-Shot Geospatial Classification with Vision and Language Models	May 30, 2025	ClassificationDisaster Response	CodeCode Available	2
Optimal Weighted Convolution for Classification and Denosing	May 30, 2025	ClassificationDenoising	CodeCode Available	2
Towards Practical Second-Order Optimizers in Deep Learning: Insights from Fisher Information Analysis	Apr 26, 2025	Computational Efficiencyimage-classification	CodeCode Available	2
Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning	Mar 20, 2025	ClassificationFew-Shot Learning	CodeCode Available	2
UniNet: A Contrastive Learning-guided Unified Framework with Feature Selection for Anomaly Detection	Feb 28, 2025	Anomaly DetectionImage Classification	CodeCode Available	2
Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment	Feb 24, 2025	image-classificationImage Classification	CodeCode Available	2
Medical Image Classification with KAN-Integrated Transformers and Dilated Neighborhood Attention	Feb 19, 2025	image-classificationImage Classification	CodeCode Available	2
DAMamba: Vision State Space Model with Dynamic Adaptive Scan	Feb 18, 2025	image-classificationImage Classification	CodeCode Available	2
ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification	Feb 12, 2025	DecoderDescriptive	CodeCode Available	2

Show:10 25 50

← PrevPage 2 of 209Next →

All datasets ImageNet CIFAR-10 CIFAR-100 STL-10 ObjectNet MNIST SVHN iNaturalist 2018 ImageNet ReaL Flowers-102 Clothing1M mini WebVision 1.0

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	CoCa (finetuned)	Top 1 Accuracy	91	—	Unverified
2	Model soups (BASIC-L)	Top 1 Accuracy	90.98	—	Unverified
3	Model soups (ViT-G/14)	Top 1 Accuracy	90.94	—	Unverified
4	DaViT-G	Top 1 Accuracy	90.4	—	Unverified
5	DaViT-H	Top 1 Accuracy	90.2	—	Unverified
6	Meta Pseudo Labels (EfficientNet-L2)	Top 1 Accuracy	90.2	—	Unverified
7	SwinV2-G	Top 1 Accuracy	90.17	—	Unverified
8	MAWS (ViT-6.5B)	Top 1 Accuracy	90.1	—	Unverified
9	Florence-CoSwin-H	Top 1 Accuracy	90.05	—	Unverified
10	Meta Pseudo Labels (EfficientNet-B6-Wide)	Top 1 Accuracy	90	—	Unverified