Incorporating Convolution Designs into Visual Transformers

2021-03-22ICCV 2021Code Available1· sign in to hype

Kun Yuan, Shaopeng Guo, Ziwei Liu, Aojun Zhou, Fengwei Yu, Wei Wu

Code Available — Be the first to reproduce this paper.

Code

github.com/coeusguo/ceit
Officialpytorch★ 62
github.com/rishikksh20/CeiT-pytorch
pytorch★ 105
github.com/mindspore-courses/External-Attention-MindSpore/blob/main/model/backbone/CeiT.py
mindspore★ 0

Abstract

Motivated by the success of Transformers in natural language processing (NLP) tasks, there emerge some attempts (e.g., ViT and DeiT) to apply Transformers to the vision domain. However, pure Transformer architectures often require a large amount of training data or extra supervision to obtain comparable performance with convolutional neural networks (CNNs). To overcome these limitations, we analyze the potential drawbacks when directly borrowing Transformer architectures from NLP. Then we propose a new Convolution-enhanced image Transformer (CeiT) which combines the advantages of CNNs in extracting low-level features, strengthening locality, and the advantages of Transformers in establishing long-range dependencies. Three modifications are made to the original Transformer: 1) instead of the straightforward tokenization from raw input images, we design an Image-to-Tokens (I2T) module that extracts patches from generated low-level features; 2) the feed-froward network in each encoder block is replaced with a Locally-enhanced Feed-Forward (LeFF) layer that promotes the correlation among neighboring tokens in the spatial dimension; 3) a Layer-wise Class token Attention (LCA) is attached at the top of the Transformer that utilizes the multi-level representations. Experimental results on ImageNet and seven downstream tasks show the effectiveness and generalization ability of CeiT compared with previous Transformers and state-of-the-art CNNs, without requiring a large amount of training data and extra CNN teachers. Besides, CeiT models also demonstrate better convergence with 3 fewer training iterations, which can reduce the training cost significantlyCode and models will be released upon acceptance..

Tasks

Image Classification

Benchmark Results

Dataset	Model	Metric	Claimed	Verified	Status
CIFAR-10	CeiT-T	Percentage correct	98.5	—	Unverified
CIFAR-10	CeiT-S	Percentage correct	99	—	Unverified
CIFAR-10	CeiT-S (384 finetune resolution)	Percentage correct	99.1	—	Unverified
CIFAR-100	CeiT-T (384 finetune resolution)	Percentage correct	88	—	Unverified
CIFAR-100	CeiT-S (384 finetune resolution)	Percentage correct	91.8	—	Unverified
CIFAR-100	CeiT-T	Percentage correct	89.4	—	Unverified
CIFAR-100	CeiT-S	Percentage correct	91.8	—	Unverified
Flowers-102	CeiT-S (384 finetune resolution)	Accuracy	98.6	—	Unverified
Flowers-102	CeiT-S	Accuracy	98.2	—	Unverified
Flowers-102	CeiT-T (384 finetune resolution)	Accuracy	97.8	—	Unverified
Flowers-102	CeiT-T	Accuracy	96.9	—	Unverified
ImageNet	CeiT-T	Top 1 Accuracy	76.4	—	Unverified
ImageNet	CeiT-S	Top 1 Accuracy	82	—	Unverified
ImageNet	CeiT-S (384 finetune res)	Top 1 Accuracy	83.3	—	Unverified
ImageNet	CeiT-T (384 finetune res)	Top 1 Accuracy	78.8	—	Unverified
ImageNet ReaL	CeiT-T	Accuracy	83.6	—	Unverified
ImageNet ReaL	CeiT-S (384 finetune res)	Accuracy	88.1	—	Unverified
ImageNet ReaL	CeiT-S	Accuracy	87.3	—	Unverified
iNaturalist 2018	CeiT-T	Top-1 Accuracy	64.3	—	Unverified
iNaturalist 2018	CeiT-T (384 finetune resolution)	Top-1 Accuracy	72.2	—	Unverified
iNaturalist 2018	CeiT-S	Top-1 Accuracy	73.3	—	Unverified
iNaturalist 2018	CeiT-S (384 finetune resolution)	Top-1 Accuracy	79.4	—	Unverified
iNaturalist 2019	CeiT-S (384 finetune resolution)	Top-1 Accuracy	82.7	—	Unverified
iNaturalist 2019	CeiT-S	Top-1 Accuracy	78.9	—	Unverified
iNaturalist 2019	CeiT-T (384 finetune resolution)	Top-1 Accuracy	77.9	—	Unverified
iNaturalist 2019	CeiT-T	Top-1 Accuracy	72.8	—	Unverified
Oxford-IIIT Pets	CeiT-T	Accuracy	93.8	—	Unverified
Oxford-IIIT Pets	CeiT-S (384 finetune resolution)	Accuracy	94.9	—	Unverified
Oxford-IIIT Pets	CeiT-S	Accuracy	94.6	—	Unverified
Oxford-IIIT Pets	CeiT-T (384 finetune resolution)	Accuracy	94.5	—	Unverified
Stanford Cars	CeiT-S (384 finetune resolution)	Accuracy	94.1	—	Unverified
Stanford Cars	CeiT-T	Accuracy	90.5	—	Unverified
Stanford Cars	CeiT-T (384 finetune resolution)	Accuracy	93	—	Unverified
Stanford Cars	CeiT-S	Accuracy	93.2	—	Unverified

Incorporating Convolution Designs into Visual Transformers

Code

Abstract

Tasks

Benchmark Results

Reproductions