Knowledge Distillation

Knowledge distillation is the process of transferring knowledge from a large model to a smaller one. While large models (such as very deep neural networks or ensembles of many models) have higher knowledge capacity than small models, this capacity might not be fully utilized.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3601–3650 of 4240 papers

Title	Date	Tasks	Status	Hype
On Knowledge Distillation for Direct Speech Translation	Dec 9, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Progressive Network Grafting for Few-Shot Knowledge Distillation	Dec 9, 2020	Knowledge DistillationModel Compression	CodeCode Available	1
Distilling Knowledge from Reader to Retriever for Question Answering	Dec 8, 2020	Information RetrievalKnowledge Distillation	CodeCode Available	1
DE-RRD: A Knowledge Distillation Framework for Recommender System	Dec 8, 2020	Knowledge DistillationModel Compression	CodeCode Available	1
Model Compression Using Optimal Transport	Dec 7, 2020	image-classificationImage Classification	—Unverified	0
Cross-Layer Distillation with Semantic Calibration	Dec 6, 2020	Knowledge DistillationTransfer Learning	CodeCode Available	1
Multi-head Knowledge Distillation for Model Compression	Dec 5, 2020	image-classificationImage Classification	—Unverified	0
Parallel Blockwise Knowledge Distillation for Deep Neural Network Compression	Dec 5, 2020	Knowledge DistillationNeural Network Compression	CodeCode Available	0
Reciprocal Supervised Learning Improves Neural Machine Translation	Dec 5, 2020	image-classificationImage Classification	CodeCode Available	0
What Makes a "Good" Data Augmentation in Knowledge Distillation -- A Statistical Perspective	Dec 5, 2020	Active LearningData Augmentation	CodeCode Available	1
Going Beyond Classification Accuracy Metrics in Model Compression	Dec 3, 2020	ClassificationEdge-computing	CodeCode Available	1
Meta-KD: A Meta Knowledge Distillation Framework for Language Model Compression across Domains	Dec 2, 2020	Knowledge DistillationLanguage Modeling	—Unverified	0
Query Distillation: BERT-based Distillation for Ensemble Ranking	Dec 1, 2020	Knowledge Distillation	—Unverified	0
Knowledge Base Embedding By Cooperative Knowledge Distillation	Dec 1, 2020	Knowledge DistillationRepresentation Learning	CodeCode Available	1
Solvable Model for Inheriting the Regularization through Knowledge Distillation	Dec 1, 2020	Knowledge DistillationTransfer Learning	—Unverified	0
Multi-level Knowledge Distillation via Knowledge Alignment and Correlation	Dec 1, 2020	Contrastive LearningKnowledge Distillation	CodeCode Available	1
Task-Oriented Feature Distillation	Dec 1, 2020	3D ClassificationGeneral Classification	CodeCode Available	1
Classification Under Misspecification: Halfspaces, Generalized Linear Models, and Evolvability	Dec 1, 2020	ClassificationFairness	—Unverified	0
Self-Supervised Generative Adversarial Compression	Dec 1, 2020	image-classificationImage Classification	—Unverified	0
Agree to Disagree: Adaptive Ensemble Knowledge Distillation in Gradient Space	Dec 1, 2020	DiversityKnowledge Distillation	CodeCode Available	1
Reverse-engineering recurrent neural network solutions to a hierarchical inference task for mice	Dec 1, 2020	Knowledge DistillationModel Compression	—Unverified	0
Real-time Spatio-temporal Action Localization via Learning Motion Representation	Nov 30, 2020	Action ClassificationAction Localization	—Unverified	0
Prototype-based Incremental Few-Shot Semantic Segmentation	Nov 30, 2020	Few-Shot Semantic SegmentationIncremental Learning	CodeCode Available	1
A Selective Survey on Versatile Knowledge Distillation Paradigm for Neural Network Models	Nov 30, 2020	Knowledge DistillationModel Compression	—Unverified	0
KD-Lib: A PyTorch library for Knowledge Distillation, Pruning and Quantization	Nov 30, 2020	Knowledge DistillationModel Compression	CodeCode Available	1
Channel-wise Knowledge Distillation for Dense Prediction	Nov 26, 2020	Knowledge DistillationPrediction	CodeCode Available	1
Adaptive Multiplane Image Generation from a Single Internet Picture	Nov 26, 2020	Depth EstimationImage Generation	—Unverified	0
torchdistill: A Modular, Configuration-Driven Framework for Knowledge Distillation	Nov 25, 2020	Image ClassificationInstance Segmentation	—Unverified	0
Generative Adversarial Simulator	Nov 23, 2020	Data-free Knowledge DistillationKnowledge Distillation	—Unverified	0
Multiresolution Knowledge Distillation for Anomaly Detection	Nov 22, 2020	Anomaly DetectionAnomaly Localization	CodeCode Available	1
Evolving Search Space for Neural Architecture Search	Nov 22, 2020	Knowledge DistillationNeural Architecture Search	CodeCode Available	1
Head Network Distillation: Splitting Distilled Deep Neural Networks for Resource-Constrained Edge Computing Systems	Nov 20, 2020	Edge-computingimage-classification	CodeCode Available	1
MixMix: All You Need for Data-Free Compression Are Feature and Data Mixing	Nov 19, 2020	AllKnowledge Distillation	—Unverified	0
KD3A: Unsupervised Multi-Source Decentralized Domain Adaptation via Knowledge Distillation	Nov 19, 2020	Domain AdaptationKnowledge Distillation	CodeCode Available	1
Effectiveness of Arbitrary Transfer Sets for Data-free Knowledge Distillation	Nov 18, 2020	Data-free Knowledge DistillationKnowledge Distillation	—Unverified	0
Privileged Knowledge Distillation for Online Action Detection	Nov 18, 2020	Action DetectionKnowledge Distillation	—Unverified	0
A Knowledge Distillation Ensemble Framework for Predicting Short and Long-term Hospitalisation Outcomes from Electronic Health Records Data	Nov 18, 2020	Decision MakingICU Admission	CodeCode Available	0
Deep Serial Number: Computational Watermarking for DNN Intellectual Property Protection	Nov 17, 2020	Knowledge Distillationvalid	—Unverified	0
Generalized Continual Zero-Shot Learning	Nov 17, 2020	Continual LearningKnowledge Distillation	—Unverified	0
Digging Deeper into CRNN Model in Chinese Text Images Recognition	Nov 17, 2020	DenoisingKnowledge Distillation	—Unverified	0
Anomaly Detection in Video via Self-Supervised and Multi-Task Learning	Nov 15, 2020	Abnormal Event Detection In VideoAnomaly Detection	CodeCode Available	1
Online Ensemble Model Compression using Knowledge Distillation	Nov 15, 2020	Knowledge Distillationmodel	CodeCode Available	0
EGAD: Evolving Graph Representation Learning with Self-Attention and Knowledge Distillation for Live Video Streaming Events	Nov 11, 2020	Graph Representation LearningKnowledge Distillation	CodeCode Available	0
Real-Time Decentralized knowledge Transfer at the Edge	Nov 11, 2020	Knowledge DistillationTransfer Learning	CodeCode Available	0
Distill2Vec: Dynamic Graph Representation Learning with Knowledge Distillation	Nov 11, 2020	Graph Representation LearningKnowledge Distillation	CodeCode Available	0
On Estimating the Training Cost of Conversational Recommendation Systems	Nov 10, 2020	Conversational RecommendationKnowledge Distillation	—Unverified	0
Knowledge Distillation for Singing Voice Detection	Nov 9, 2020	Information RetrievalKnowledge Distillation	CodeCode Available	0
Ensemble Knowledge Distillation for CTR Prediction	Nov 8, 2020	Click-Through Rate PredictionKnowledge Distillation	—Unverified	0
Human-Like Active Learning: Machines Simulating the Human Learning Process	Nov 7, 2020	Active LearningForm	—Unverified	0
Robustness and Diversity Seeking Data-Free Knowledge Distillation	Nov 7, 2020	Data-free Knowledge DistillationDiversity	CodeCode Available	0

Show:10 25 50

← PrevPage 73 of 85Next →

All datasets ImageNet CIFAR-100 COCO (Common Objects in Context)COCO 2017 val PASCAL VOC KITTI

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ScaleKD (T:BEiT-L S:ViT-B/14)	Top-1 accuracy %	86.43	—	Unverified
2	ScaleKD (T:Swin-L S:ViT-B/16)	Top-1 accuracy %	85.53	—	Unverified
3	ScaleKD (T:Swin-L S:ViT-S/16)	Top-1 accuracy %	83.93	—	Unverified
4	ScaleKD (T:Swin-L S:Swin-T)	Top-1 accuracy %	83.8	—	Unverified
5	KD++(T: regnety-16GF S:ViT-B)	Top-1 accuracy %	83.6	—	Unverified
6	VkD (T:RegNety 160 S:DeiT-S)	Top-1 accuracy %	82.9	—	Unverified
7	SpectralKD (T:Swin-S S:Swin-T)	Top-1 accuracy %	82.7	—	Unverified
8	ScaleKD (T:Swin-L S:ResNet-50)	Top-1 accuracy %	82.55	—	Unverified
9	DiffKD (T:Swin-L S: Swin-T)	Top-1 accuracy %	82.5	—	Unverified
10	DIST (T: Swin-L S: Swin-T)	Top-1 accuracy %	82.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SRD (T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	79.86	—	Unverified
2	shufflenet-v2(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	78.76	—	Unverified
3	MV-MR (T: CLIP/ViT-B-16 S: resnet50)	Top-1 Accuracy (%)	78.6	—	Unverified
4	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	78.28	—	Unverified
5	resnet8x4 (T: resnet32x4 S: resnet8x4 [modified])	Top-1 Accuracy (%)	78.08	—	Unverified
6	ReviewKD++(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	77.93	—	Unverified
7	ReviewKD++(T:resnet-32x4, S:shufflenet-v1)	Top-1 Accuracy (%)	77.68	—	Unverified
8	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	77.5	—	Unverified
9	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.68	—	Unverified
10	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.31	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	77.16	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	73.73	—	Unverified
3	ADLIK-Faster (T: Faster R-CNN vit-base S: Faster R-CNN deit-small)	box AP	47.6	—	Unverified
4	ADLIK-Mask (T: Mask R-CNN vit-base S: Mask R-CNN deit-small)	mask AP	42.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet50))	AP@0.5	61.8	—	Unverified
2	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet18))	AP@0.5	57.96	—	Unverified
3	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(mobilenet-v2))	AP@0.5	55.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	93.17	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	90.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TIE-KD (T: Adabins S: MobileNetV2)	RMSE	2.43	—	Unverified