Knowledge Distillation

Knowledge distillation is the process of transferring knowledge from a large model to a smaller one. While large models (such as very deep neural networks or ensembles of many models) have higher knowledge capacity than small models, this capacity might not be fully utilized.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3301–3350 of 4240 papers

Title	Date	Tasks	Status
FedRAD: Federated Robust Adaptive Distillation	Dec 2, 2021	Federated LearningKnowledge Distillation	—Unverified
Shapeshifter: a Parameter-efficient Transformer using Factorized Reshaped Matrices	Dec 1, 2021	Knowledge DistillationModel Compression	CodeCode Available
Unsupervised Representation Transfer for Small Networks: I Believe I Can Distill On-the-Fly	Dec 1, 2021	Knowledge DistillationLinear evaluation	—Unverified
Handling Long-tailed Feature Distribution in AdderNets	Dec 1, 2021	Knowledge Distillation	—Unverified
Analyzing the Confidentiality of Undistillable Teachers in Knowledge Distillation	Dec 1, 2021	Knowledge Distillation	CodeCode Available
Adversarial Teacher-Student Representation Learning for Domain Generalization	Dec 1, 2021	Data AugmentationDomain Generalization	CodeCode Available
Using a GAN to Generate Adversarial Examples to Facial Image Recognition	Nov 30, 2021	Face RecognitionGenerative Adversarial Network	—Unverified
Improved Knowledge Distillation via Adversarial Collaboration	Nov 29, 2021	Knowledge Distillation	—Unverified
Efficient Federated Learning for AIoT Applications Using Knowledge Distillation	Nov 29, 2021	Federated LearningKnowledge Distillation	—Unverified
ESGN: Efficient Stereo Geometry Network for Fast 3D Object Detection	Nov 28, 2021	3D Object DetectionKnowledge Distillation	—Unverified
Ensembling of Distilled Models from Multi-task Teachers for Constrained Resource Language Pairs	Nov 26, 2021	Knowledge DistillationTranslation	—Unverified
Domain-Agnostic Clustering with Self-Distillation	Nov 23, 2021	ClusteringData Augmentation	—Unverified
Semi-Online Knowledge Distillation	Nov 23, 2021	Knowledge DistillationModel Compression	CodeCode Available
Local-Selective Feature Distillation for Single Image Super-Resolution	Nov 22, 2021	Image Super-ResolutionKnowledge Distillation	—Unverified
Contrast-reconstruction Representation Learning for Self-supervised Skeleton-based Action Recognition	Nov 22, 2021	Action RecognitionContrastive Learning	—Unverified
Hierarchical Knowledge Distillation for Dialogue Sequence Labeling	Nov 22, 2021	Knowledge DistillationScene Segmentation	—Unverified
Teacher-Student Training and Triplet Loss to Reduce the Effect of Drastic Face Occlusion	Nov 20, 2021	Age EstimationFacial Expression Recognition	—Unverified
Toxicity Detection can be Sensitive to the Conversational Context	Nov 19, 2021	Data AugmentationKnowledge Distillation	—Unverified
Dynamically pruning segformer for efficient semantic segmentation	Nov 18, 2021	Knowledge DistillationSegmentation	—Unverified
Hierarchical Knowledge Guided Learning for Real-world Retinal Diseases Recognition	Nov 17, 2021	Knowledge Distillation	—Unverified
One General Teacher for Multi-Data Multi-Task: A New Knowledge Distillation Framework for Discourse Relation Analysis	Nov 16, 2021	Knowledge DistillationMulti-Task Learning	—Unverified
Redistributing Low-Frequency Words: Making the Most of Monolingual Data in Non-Autoregressive Translation	Nov 16, 2021	Knowledge DistillationTranslation	—Unverified
NVIDIA NeMo Neural Machine Translation Systems for English-German and English-Russian News and Biomedical Tasks at WMT21	Nov 16, 2021	Data AugmentationKnowledge Distillation	—Unverified
Feature Structure Distillation for BERT Transferring	Nov 16, 2021	Knowledge Distillation	—Unverified
An Unsupervised Multiple-Task and Multiple-Teacher Model for Cross-lingual Named Entity Recognition	Nov 16, 2021	Cross-Lingual NERKnowledge Distillation	CodeCode Available
Multi-stage Distillation Framework for Cross-Lingual Semantic Similarity Matching	Nov 16, 2021	Contrastive LearningKnowledge Distillation	—Unverified
Learning to Teach with Student Feedback	Nov 16, 2021	Knowledge Distillation	—Unverified
Multi-Granularity Contrastive Knowledge Distillation for Multimodal Named Entity Recognition	Nov 16, 2021	Knowledge DistillationMulti-modal Named Entity Recognition	—Unverified
Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation	Nov 16, 2021	Image CaptioningKnowledge Distillation	—Unverified
Deep-to-bottom Weights Decay: A Systemic Knowledge Review Learning Technique for Transformer Layers in Knowledge Distillation	Nov 16, 2021	Knowledge Distillation	—Unverified
Self-Distilled Pruning of Neural Networks	Nov 16, 2021	Knowledge DistillationLanguage Modeling	—Unverified
When Chosen Wisely, More Data Is What You Need: A Universal Sample-Efficient Strategy For Data Augmentation	Nov 16, 2021	Data AugmentationHellaSwag	—Unverified
Sparse Progressive Distillation: Resolving Overfitting under Pretrain-and-Finetune Paradigm	Nov 16, 2021	Knowledge Distillation	—Unverified
Making Small Language Models Better Few-Shot Learners	Nov 16, 2021	Few-Shot LearningKnowledge Distillation	—Unverified
Aligned Weight Regularizers for Pruning Pretrained Neural Networks	Nov 16, 2021	Knowledge DistillationLanguage Modeling	—Unverified
A Flexible Multi-Task Model for BERT Serving	Nov 16, 2021	Knowledge Distillationmodel	—Unverified
Compositional Data Augmentation for Abstractive Conversation Summarization	Nov 16, 2021	Conversation SummarizationData Augmentation	—Unverified
Synthetic Unknown Class Learning for Learning Unknowns	Nov 15, 2021	DiversityKnowledge Distillation	—Unverified
Robust and Accurate Object Detection via Self-Knowledge Distillation	Nov 14, 2021	Adversarial RobustnessKnowledge Distillation	CodeCode Available
Facial Landmark Points Detection Using Knowledge Distillation-Based Neural Networks	Nov 13, 2021	Face AlignmentFacial Landmark Detection	CodeCode Available
Domain Generalization on Efficient Acoustic Scene Classification using Residual Normalization	Nov 12, 2021	Acoustic Scene ClassificationClassification	—Unverified
Learning Interpretation with Explainable Knowledge Distillation	Nov 12, 2021	Knowledge DistillationModel Compression	—Unverified
Incremental Meta-Learning via Episodic Replay Distillation for Few-Shot Image Recognition	Nov 9, 2021	Continual LearningKnowledge Distillation	CodeCode Available
A Survey on Green Deep Learning	Nov 8, 2021	Deep LearningKnowledge Distillation	—Unverified
Class Token and Knowledge Distillation for Multi-head Self-Attention Speaker Verification Systems	Nov 6, 2021	Knowledge DistillationPhilosophy	—Unverified
AUTOKD: Automatic Knowledge Distillation Into A Student Architecture Family	Nov 5, 2021	Bayesian OptimizationKnowledge Distillation	—Unverified
Visualizing the Emergence of Intermediate Visual Patterns in DNNs	Nov 5, 2021	Knowledge Distillation	—Unverified
Oracle Teacher: Leveraging Target Information for Better Knowledge Distillation of CTC Models	Nov 5, 2021	Knowledge DistillationMachine Translation	—Unverified
A methodology for training homomorphicencryption friendly neural networks	Nov 5, 2021	Knowledge DistillationPrivacy Preserving	—Unverified
DVFL: A Vertical Federated Learning Method for Dynamic Data	Nov 5, 2021	Federated LearningKnowledge Distillation	—Unverified

Show:10 25 50

← PrevPage 67 of 85Next →

All datasets ImageNet CIFAR-100 COCO (Common Objects in Context)COCO 2017 val PASCAL VOC KITTI

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ScaleKD (T:BEiT-L S:ViT-B/14)	Top-1 accuracy %	86.43	—	Unverified
2	ScaleKD (T:Swin-L S:ViT-B/16)	Top-1 accuracy %	85.53	—	Unverified
3	ScaleKD (T:Swin-L S:ViT-S/16)	Top-1 accuracy %	83.93	—	Unverified
4	ScaleKD (T:Swin-L S:Swin-T)	Top-1 accuracy %	83.8	—	Unverified
5	KD++(T: regnety-16GF S:ViT-B)	Top-1 accuracy %	83.6	—	Unverified
6	VkD (T:RegNety 160 S:DeiT-S)	Top-1 accuracy %	82.9	—	Unverified
7	SpectralKD (T:Swin-S S:Swin-T)	Top-1 accuracy %	82.7	—	Unverified
8	ScaleKD (T:Swin-L S:ResNet-50)	Top-1 accuracy %	82.55	—	Unverified
9	DiffKD (T:Swin-L S: Swin-T)	Top-1 accuracy %	82.5	—	Unverified
10	DIST (T: Swin-L S: Swin-T)	Top-1 accuracy %	82.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SRD (T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	79.86	—	Unverified
2	shufflenet-v2(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	78.76	—	Unverified
3	MV-MR (T: CLIP/ViT-B-16 S: resnet50)	Top-1 Accuracy (%)	78.6	—	Unverified
4	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	78.28	—	Unverified
5	resnet8x4 (T: resnet32x4 S: resnet8x4 [modified])	Top-1 Accuracy (%)	78.08	—	Unverified
6	ReviewKD++(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	77.93	—	Unverified
7	ReviewKD++(T:resnet-32x4, S:shufflenet-v1)	Top-1 Accuracy (%)	77.68	—	Unverified
8	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	77.5	—	Unverified
9	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.68	—	Unverified
10	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.31	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	77.16	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	73.73	—	Unverified
3	ADLIK-Faster (T: Faster R-CNN vit-base S: Faster R-CNN deit-small)	box AP	47.6	—	Unverified
4	ADLIK-Mask (T: Mask R-CNN vit-base S: Mask R-CNN deit-small)	mask AP	42.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet50))	AP@0.5	61.8	—	Unverified
2	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet18))	AP@0.5	57.96	—	Unverified
3	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(mobilenet-v2))	AP@0.5	55.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	93.17	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	90.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TIE-KD (T: Adabins S: MobileNetV2)	RMSE	2.43	—	Unverified