Image Classification

Image Classification is a fundamental task in vision recognition that aims to understand and categorize an image as a whole under a specific label. Unlike object detection, which involves classification and location of multiple objects within an image, image classification typically pertains to single-object images. When the classification becomes highly detailed or reaches instance-level, it is often referred to as image retrieval, which also involves finding similar images in a large database.

Source: Metamorphic Testing for Object Detection Systems

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 10419 papers

Title	Date	Tasks	Status	Hype	Score
Vision Transformers: From Semantic Segmentation to Dense Prediction	Jul 19, 2022	image-classificationImage Classification	CodeCode Available	3	5
XCiT: Cross-Covariance Image Transformers	Jun 17, 2021	image-classificationImage Classification	CodeCode Available	3	5
Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling	Jan 9, 2023	2D Object DetectionContrastive Learning	CodeCode Available	3	5
Detecting Twenty-thousand Classes using Image-level Supervision	Jan 7, 2022	Cross-Domain Few-Shot Object Detectionimage-classification	CodeCode Available	3	5
Demystify Mamba in Vision: A Linear Attention Perspective	May 26, 2024	image-classificationImage Classification	CodeCode Available	3	5
VisionLLaMA: A Unified LLaMA Backbone for Vision Tasks	Mar 1, 2024	Image ClassificationImage Generation	CodeCode Available	3	5
Vision-Language Pre-training: Basics, Recent Advances, and Future Trends	Oct 17, 2022	Few-Shot LearningImage Captioning	CodeCode Available	3	5
xLSTM-UNet can be an Effective 2D & 3D Medical Image Segmentation Backbone with Vision-LSTM (ViL) better than its Mamba Counterpart	Jul 1, 2024	3D Medical Imaging Segmentationimage-classification	CodeCode Available	3	5
Spikformer V2: Join the High Accuracy Club on ImageNet with an SNN Ticket	Jan 4, 2024	image-classificationImage Classification	CodeCode Available	3	5
EfficientNetV2: Smaller Models and Faster Training	Apr 1, 2021	AutoMLClassification	CodeCode Available	3	5
SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery	Dec 15, 2023	Contrastive LearningEarth Observation	CodeCode Available	3	5
TCFormer: Visual Recognition via Token Clustering Transformer	Jul 16, 2024	Clusteringimage-classification	CodeCode Available	3	5
ResNeSt: Split-Attention Networks	Apr 19, 2020	image-classificationImage Classification	CodeCode Available	3	5
PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition	Mar 26, 2024	Image ClassificationInstance Segmentation	CodeCode Available	3	5
Datasets: A Community Library for Natural Language Processing	Sep 7, 2021	Image ClassificationObject Recognition	CodeCode Available	3	5
Transformers in Medical Imaging: A Survey	Jan 24, 2022	Image ClassificationImage Segmentation	CodeCode Available	3	5
ADOPT: Modified Adam Can Converge with Any β_2 with the Optimal Rate	Nov 5, 2024	Deep Reinforcement Learningimage-classification	CodeCode Available	3	5
ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities	May 18, 2023	1 Image, 2*2 StitchiAction Classification	CodeCode Available	3	5
Patches Are All You Need?	Jan 24, 2022	AllImage Classification	CodeCode Available	3	5
Cascade Prompt Learning for Vision-Language Model Adaptation	Sep 26, 2024	General Knowledgeimage-classification	CodeCode Available	3	5
MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices	Dec 28, 2023	AutoMLCPU	CodeCode Available	3	5
Momentum Contrast for Unsupervised Visual Representation Learning	Nov 13, 2019	Contrastive LearningImage Classification	CodeCode Available	3	5
MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining	Mar 20, 2024	Aerial Scene ClassificationBuilding change detection for remote sensing images	CodeCode Available	3	5
U^2-Net: Going Deeper with Nested U-Structure for Salient Object Detection	May 18, 2020	Dichotomous Image SegmentationGPU	CodeCode Available	3	5
MetaFormer Baselines for Vision	Oct 24, 2022	Domain GeneralizationImage Classification	CodeCode Available	3	5
MaxViT: Multi-Axis Vision Transformer	Apr 4, 2022	image-classificationImage Classification	CodeCode Available	3	5
MiniViT: Compressing Vision Transformers with Weight Multiplexing	Apr 14, 2022	DiversityImage Classification	CodeCode Available	3	5
Ludwig: a type-based declarative deep learning toolbox	Sep 17, 2019	DecoderDeep Learning	CodeCode Available	3	5
Bag of Freebies for Training Object Detection Neural Networks	Feb 11, 2019	General Classificationimage-classification	CodeCode Available	3	5
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs	Nov 22, 2024	image-classificationImage Classification	CodeCode Available	3	5
5%>100%: Breaking Performance Shackles of Full Fine-Tuning on Visual Recognition Tasks	Aug 15, 2024	image-classificationImage Classification	CodeCode Available	3	5
Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey	Feb 8, 2024	ArticlesEntity Alignment	CodeCode Available	3	5
FusionBench: A Comprehensive Benchmark of Deep Model Fusion	Jun 5, 2024	image-classificationImage Classification	CodeCode Available	3	5
QOC: Quantum On-Chip Training with Parameter Shift and Gradient Pruning	Feb 26, 2022	image-classificationImage Classification	CodeCode Available	3	5
Falcon: A Remote Sensing Vision-Language Foundation Model	Mar 14, 2025	Image Captioningimage-classification	CodeCode Available	3	5
FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization	Mar 24, 2023	3D Hand Pose EstimationGPU	CodeCode Available	3	5
AutoAugment: Learning Augmentation Policies from Data	May 24, 2018	Data AugmentationDomain Generalization	CodeCode Available	3	5
MobileNetV4 -- Universal Models for the Mobile Ecosystem	Apr 16, 2024	Image ClassificationNeural Architecture Search	CodeCode Available	3	5
UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition	Nov 27, 2023	Image ClassificationObject Detection	CodeCode Available	3	5
RSMamba: Remote Sensing Image Classification with State Space Model	Mar 28, 2024	Classificationimage-classification	CodeCode Available	3	5
Separable Self-attention for Mobile Vision Transformers	Jun 6, 2022	Image ClassificationObject Detection	CodeCode Available	3	5
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality	Nov 22, 2024	Efficient Neural NetworkImage Classification	CodeCode Available	2	5
UNetFormer: A UNet-like Transformer for Efficient Semantic Segmentation of Remote Sensing Urban Scene Imagery	Sep 18, 2021	Change DetectionDecoder	CodeCode Available	2	5
MogaNet: Multi-order Gated Aggregation Network	Nov 7, 2022	3D Human Pose EstimationImage Classification	CodeCode Available	2	5
Effective Data Augmentation With Diffusion Models	Feb 7, 2023	Data AugmentationDiversity	CodeCode Available	2	5
Agent Attention: On the Integration of Softmax and Linear Attention	Dec 14, 2023	Computational Efficiencyimage-classification	CodeCode Available	2	5
Efficient Multi-Scale Attention Module with Cross-Spatial Learning	May 23, 2023	Dimensionality Reductionimage-classification	CodeCode Available	2	5
EMR-Merging: Tuning-Free High-Performance Model Merging	May 23, 2024	Image ClassificationImage Retrieval	CodeCode Available	2	5
Dilated Neighborhood Attention Transformer	Sep 29, 2022	Image ClassificationInstance Segmentation	CodeCode Available	2	5
ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks	Oct 8, 2019	Dimensionality Reductionimage-classification	CodeCode Available	2	5

Show:10 25 50

← PrevPage 2 of 209Next →

All datasets ImageNet CIFAR-10 CIFAR-100 STL-10 ObjectNet MNIST SVHN iNaturalist 2018 ImageNet ReaL Flowers-102 Clothing1M mini WebVision 1.0

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	CoCa (finetuned)	Top 1 Accuracy	91	—	Unverified
2	Model soups (BASIC-L)	Top 1 Accuracy	90.98	—	Unverified
3	Model soups (ViT-G/14)	Top 1 Accuracy	90.94	—	Unverified
4	DaViT-G	Top 1 Accuracy	90.4	—	Unverified
5	DaViT-H	Top 1 Accuracy	90.2	—	Unverified
6	Meta Pseudo Labels (EfficientNet-L2)	Top 1 Accuracy	90.2	—	Unverified
7	SwinV2-G	Top 1 Accuracy	90.17	—	Unverified
8	MAWS (ViT-6.5B)	Top 1 Accuracy	90.1	—	Unverified
9	Florence-CoSwin-H	Top 1 Accuracy	90.05	—	Unverified
10	Meta Pseudo Labels (EfficientNet-B6-Wide)	Top 1 Accuracy	90	—	Unverified