Image Classification

Image Classification is a fundamental task in vision recognition that aims to understand and categorize an image as a whole under a specific label. Unlike object detection, which involves classification and location of multiple objects within an image, image classification typically pertains to single-object images. When the classification becomes highly detailed or reaches instance-level, it is often referred to as image retrieval, which also involves finding similar images in a large database.

Source: Metamorphic Testing for Object Detection Systems

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 10420 papers

Title	Date	Tasks	Status	Hype
MambaVision: A Hybrid Mamba-Transformer Vision Backbone	Jul 10, 2024	Image ClassificationInstance Segmentation	CodeCode Available	7
MambaOut: Do We Really Need Mamba for Vision?	May 13, 2024	image-classificationImage Classification	CodeCode Available	7
Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis	May 14, 2025	DenoisingDepth Estimation	CodeCode Available	7
MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning	Oct 14, 2023	Image ClassificationImage Description	CodeCode Available	7
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models	Mar 27, 2024	Image ClassificationImage Comprehension	CodeCode Available	7
AutoTrain: No-code training for state-of-the-art models	Oct 21, 2024	Classificationimage-classification	CodeCode Available	7
Visual-RFT: Visual Reinforcement Fine-Tuning	Mar 3, 2025	Few-Shot Object DetectionFine-Grained Image Classification	CodeCode Available	7
Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution	Jul 12, 2023	FairnessImage Classification	CodeCode Available	6
DINOv2: Learning Robust Visual Features without Supervision	Apr 14, 2023	Depth EstimationDomain Generalization	CodeCode Available	6
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness	May 27, 2022	16k4k	CodeCode Available	6
Visual Instruction Tuning	Apr 17, 2023	1 Image, 2*2 Stitching3D Question Answering (3D-QA)	CodeCode Available	6
Improved Baselines with Visual Instruction Tuning	Oct 5, 2023	Factual Inconsistency Detection in Chart CaptioningImage Classification	CodeCode Available	6
A ConvNet for the 2020s	Jan 10, 2022	ClassificationDomain Generalization	CodeCode Available	5
Efficient Multimodal Learning from Data-centric Perspective	Feb 18, 2024	Image ClassificationReferring Expression Comprehension	CodeCode Available	5
Multimodal Autoregressive Pre-training of Large Vision Encoders	Nov 21, 2024	DecoderImage Classification	CodeCode Available	5
Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively	Jan 5, 2024	image-classificationImage Classification	CodeCode Available	5
Scalable Pre-training of Large Autoregressive Image Models	Jan 16, 2024	Image Classification	CodeCode Available	5
Sequencer: Deep LSTM for Image Classification	May 4, 2022	Domain Generalizationimage-classification	CodeCode Available	5
Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese	Nov 2, 2022	Contrastive Learningimage-classification	CodeCode Available	5
MedMamba: Vision Mamba for Medical Image Classification	Mar 6, 2024	Classificationimage-classification	CodeCode Available	4
Catastrophic Forgetting in Deep Learning: A Comprehensive Taxonomy	Dec 16, 2023	Deep Learningimage-classification	CodeCode Available	4
Wavelet Convolutions for Large Receptive Fields	Jul 8, 2024	2D Object Detection2D Semantic Segmentation	CodeCode Available	4
Kolmogorov-Arnold Convolutions: Design Principles and Empirical Studies	Jul 1, 2024	image-classificationImage Classification	CodeCode Available	4
InceptionNeXt: When Inception Meets ConvNeXt	Mar 29, 2023	Image ClassificationSemantic Segmentation	CodeCode Available	4
InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions	Nov 10, 2022	2D Object DetectionClassification	CodeCode Available	4
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day	Jun 1, 2023	Image ClassificationInstruction Following	CodeCode Available	4
Kolmogorov-Arnold Transformer	Sep 16, 2024	Image Classification	CodeCode Available	4
Vision GNN: An Image is Worth Graph of Nodes	Jun 1, 2022	Image ClassificationObject Detection	CodeCode Available	4
Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures	Mar 4, 2024	image-classificationImage Classification	CodeCode Available	4
ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models	Apr 19, 2022	FairnessFew-Shot Image Classification	CodeCode Available	4
Visual Attention Network	Feb 20, 2022	image-classificationImage Classification	CodeCode Available	4
Scaling Up Biomedical Vision-Language Models: Fine-Tuning, Instruction Tuning, and Multi-Modal Learning	May 23, 2025	DecoderImage Captioning	CodeCode Available	4
Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Vision Applications	Jan 11, 2024	image-classificationImage Classification	CodeCode Available	4
EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything	Dec 1, 2023	Decoderimage-classification	CodeCode Available	4
AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities	Nov 12, 2022	Contrastive LearningCross-Modal Retrieval	CodeCode Available	4
Detectron2 Object Detection & Manipulating Images using Cartoonization	Aug 1, 2021	Autonomous VehiclesData Visualization	CodeCode Available	4
OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels	Feb 27, 2025	Image ClassificationInstance Segmentation	CodeCode Available	4
mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video	Feb 1, 2023	Action ClassificationImage Classification	CodeCode Available	4
A Framework For Contrastive Self-Supervised Learning And Designing A New Approach	Aug 31, 2020	Data AugmentationImage Classification	CodeCode Available	4
Architecture-Agnostic Masked Image Modeling -- From ViT back to CNN	May 27, 2022	Image ClassificationInstance Segmentation	CodeCode Available	4
Efficient Post-training Quantization with FP8 Formats	Sep 26, 2023	image-classificationImage Classification	CodeCode Available	4
Benchopt: Reproducible, efficient and collaborative optimization benchmarks	Jun 27, 2022	Benchmarkingimage-classification	CodeCode Available	4
Deep Residual Learning for Image Recognition	Dec 10, 2015	Classification	CodeCode Available	4
EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction	May 29, 2022	Autonomous DrivingCPU	CodeCode Available	4
RegNet: Self-Regulated Network for Image Classification	Jan 3, 2021	ClassificationGeneral Classification	CodeCode Available	4
MaxViT: Multi-Axis Vision Transformer	Apr 4, 2022	image-classificationImage Classification	CodeCode Available	3
MetaFormer Baselines for Vision	Oct 24, 2022	Domain GeneralizationImage Classification	CodeCode Available	3
Ludwig: a type-based declarative deep learning toolbox	Sep 17, 2019	DecoderDeep Learning	CodeCode Available	3
Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey	Feb 8, 2024	ArticlesEntity Alignment	CodeCode Available	3
Cascade Prompt Learning for Vision-Language Model Adaptation	Sep 26, 2024	General Knowledgeimage-classification	CodeCode Available	3

Show:10 25 50

← PrevPage 1 of 209Next →

All datasets ImageNet CIFAR-10 CIFAR-100 STL-10 ObjectNet MNIST SVHN iNaturalist 2018 ImageNet ReaL Flowers-102 Clothing1M mini WebVision 1.0

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	CoCa (finetuned)	Top 1 Accuracy	91	—	Unverified
2	Model soups (BASIC-L)	Top 1 Accuracy	90.98	—	Unverified
3	Model soups (ViT-G/14)	Top 1 Accuracy	90.94	—	Unverified
4	DaViT-G	Top 1 Accuracy	90.4	—	Unverified
5	DaViT-H	Top 1 Accuracy	90.2	—	Unverified
6	Meta Pseudo Labels (EfficientNet-L2)	Top 1 Accuracy	90.2	—	Unverified
7	SwinV2-G	Top 1 Accuracy	90.17	—	Unverified
8	MAWS (ViT-6.5B)	Top 1 Accuracy	90.1	—	Unverified
9	Florence-CoSwin-H	Top 1 Accuracy	90.05	—	Unverified
10	RevCol-H	Top 1 Accuracy	90	—	Unverified