Knowledge Distillation

Knowledge distillation is the process of transferring knowledge from a large model to a smaller one. While large models (such as very deep neural networks or ensembles of many models) have higher knowledge capacity than small models, this capacity might not be fully utilized.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3651–3700 of 4240 papers

Title	Date	Tasks	Status	Hype
Federated Knowledge Distillation	Nov 4, 2020	Federated LearningKnowledge Distillation	CodeCode Available	1
Paralinguistic Privacy Protection at the Edge	Nov 4, 2020	CPUKnowledge Distillation	—Unverified	0
On Self-Distilling Graph Neural Network	Nov 4, 2020	Graph EmbeddingGraph Neural Network	—Unverified	0
Channel Planting for Deep Neural Networks using Knowledge Distillation	Nov 4, 2020	Knowledge DistillationNetwork Pruning	—Unverified	0
Domain Adaptive Knowledge Distillation for Driving Scene Semantic Segmentation	Nov 3, 2020	Autonomous DrivingKnowledge Distillation	CodeCode Available	1
A Comprehensive Study of Class Incremental Learning Algorithms for Visual Tasks	Nov 3, 2020	class-incremental learningClass Incremental Learning	—Unverified	0
Distilling Knowledge by Mimicking Features	Nov 3, 2020	Knowledge Distillationobject-detection	CodeCode Available	0
Data-free Knowledge Distillation for Segmentation using Data-Enriching GAN	Nov 2, 2020	Data-free Knowledge DistillationDiversity	CodeCode Available	0
Learning to Maximize Speech Quality Directly Using MOS Prediction for Neural Text-to-Speech	Nov 2, 2020	Knowledge DistillationSpeech Synthesis	—Unverified	0
HW-TSC’s Participation in the WMT 2020 News Translation Shared Task	Nov 1, 2020	Knowledge DistillationTranslation	—Unverified	0
The NiuTrans Machine Translation Systems for WMT20	Nov 1, 2020	Knowledge DistillationMachine Translation	—Unverified	0
IIE’s Neural Machine Translation Systems for WMT20	Nov 1, 2020	Domain AdaptationKnowledge Distillation	—Unverified	0
High Performance Natural Language Processing	Nov 1, 2020	Knowledge DistillationQuantization	—Unverified	0
Fast End-to-end Coreference Resolution for Korean	Nov 1, 2020	coreference-resolutionCoreference Resolution	—Unverified	0
Using the Past Knowledge to Improve Sentiment Classification	Nov 1, 2020	ClassificationKnowledge Distillation	—Unverified	0
FedED: Federated Learning via Ensemble Distillation for Medical Relation Extraction	Nov 1, 2020	Federated LearningKnowledge Distillation	—Unverified	0
Bridging the Gap between Prior and Posterior Knowledge Selection for Knowledge-Grounded Dialogue Generation	Nov 1, 2020	DecoderDialogue Generation	—Unverified	0
Distilling Structured Knowledge for Text-Based Relational Reasoning	Nov 1, 2020	Contrastive LearningKnowledge Distillation	—Unverified	0
MixKD: Towards Efficient Distillation of Large-scale Language Models	Nov 1, 2020	Data AugmentationKnowledge Distillation	—Unverified	0
ProxylessKD: Direct Knowledge Distillation with Inherited Classifier for Face Recognition	Oct 31, 2020	Face RecognitionKnowledge Distillation	—Unverified	0
Cross-lingual Machine Reading Comprehension with Language Branch Knowledge Distillation	Oct 27, 2020	Knowledge DistillationMachine Reading Comprehension	—Unverified	0
Activation Map Adaptation for Effective Knowledge Distillation	Oct 26, 2020	Knowledge DistillationModel Compression	—Unverified	0
FastFormers: Highly Efficient Transformer Models for Natural Language Understanding	Oct 26, 2020	CPUGPU	CodeCode Available	1
Empowering Knowledge Distillation via Open Set Recognition for Robust 3D Point Cloud Classification	Oct 25, 2020	3D Point Cloud ClassificationGeneral Classification	—Unverified	0
Two-stage Textual Knowledge Distillation for End-to-End Spoken Language Understanding	Oct 25, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Multi-Task Learning with Shared Encoder for Non-Autoregressive Machine Translation	Oct 24, 2020	Knowledge DistillationMachine Translation	CodeCode Available	1
Pre-trained Summarization Distillation	Oct 24, 2020	Knowledge DistillationMachine Translation	CodeCode Available	0
Improved Synthetic Training for Reading Comprehension	Oct 24, 2020	Knowledge DistillationMachine Reading Comprehension	—Unverified	0
Iterative Graph Self-Distillation	Oct 23, 2020	Contrastive LearningGraph Learning	—Unverified	0
Generating Long Financial Report using Conditional Variational Autoencoders with Knowledge Distillation	Oct 23, 2020	DecoderKnowledge Distillation	—Unverified	0
Distilling Dense Representations for Ranking using Tightly-Coupled Teachers	Oct 22, 2020	Knowledge Distillation	CodeCode Available	1
Knowledge Distillation for BERT Unsupervised Domain Adaptation	Oct 22, 2020	Domain AdaptationGeneral Classification	CodeCode Available	1
Knowledge Distillation for Improved Accuracy in Spoken Question Answering	Oct 21, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Contextualized Attention-based Knowledge Transfer for Spoken Conversational Question Answering	Oct 21, 2020	Audio Signal ProcessingConversational Question Answering	—Unverified	0
Fast Video Salient Object Detection via Spatiotemporal Knowledge Distillation	Oct 20, 2020	Knowledge DistillationObject	—Unverified	0
Knowledge Distillation in Wide Neural Networks: Risk Bound, Data Efficiency and Imperfect Teacher	Oct 20, 2020	Knowledge DistillationModel Compression	—Unverified	0
Edge Bias in Federated Learning and its Solution by Buffered Knowledge Distillation	Oct 20, 2020	Federated LearningKnowledge Distillation	—Unverified	0
Noisy Neural Network Compression for Analog Storage Devices	Oct 19, 2020	Knowledge DistillationModel Compression	—Unverified	0
Comparing Fisher Information Regularization with Distillation for DNN Quantization	Oct 19, 2020	Knowledge DistillationQuantization	—Unverified	0
Infusing Sequential Information into Conditional Masked Translation Model with Self-Review Mechanism	Oct 19, 2020	DecoderKnowledge Distillation	CodeCode Available	0
Reducing the Teacher-Student Gap via Spherical Knowledge Disitllation	Oct 15, 2020	Knowledge Distillation	CodeCode Available	1
Task Decoupled Knowledge Distillation For Lightweight Face Detectors	Oct 14, 2020	Face DetectionKnowledge Distillation	CodeCode Available	1
AutoADR: Automatic Model Design for Ad Relevance	Oct 14, 2020	AutoMLKnowledge Distillation	—Unverified	0
MulDE: Multi-teacher Knowledge Distillation for Low-dimensional Knowledge Graph Embeddings	Oct 14, 2020	Graph EmbeddingKnowledge Distillation	—Unverified	0
Dual-mode ASR: Unify and Improve Streaming ASR with Full-context Modeling	Oct 12, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Collective Wisdom: Improving Low-resource Neural Machine Translation using Adaptive Knowledge Distillation	Oct 12, 2020	Knowledge DistillationLow Resource Neural Machine Translation	—Unverified	0
Structural Knowledge Distillation: Tractably Distilling Information for Structured Predictor	Oct 10, 2020	Dependency ParsingKnowledge Distillation	CodeCode Available	0
Adversarial Self-Supervised Data-Free Distillation for Text Classification	Oct 10, 2020	ClassificationGeneral Classification	—Unverified	0
Distilling a Deep Neural Network into a Takagi-Sugeno-Kang Fuzzy Inference System	Oct 10, 2020	General ClassificationKnowledge Distillation	—Unverified	0
Locally Linear Region Knowledge Distillation	Oct 9, 2020	Knowledge Distillation	—Unverified	0

Show:10 25 50

← PrevPage 74 of 85Next →

All datasets ImageNet CIFAR-100 COCO (Common Objects in Context)COCO 2017 val PASCAL VOC KITTI

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ScaleKD (T:BEiT-L S:ViT-B/14)	Top-1 accuracy %	86.43	—	Unverified
2	ScaleKD (T:Swin-L S:ViT-B/16)	Top-1 accuracy %	85.53	—	Unverified
3	ScaleKD (T:Swin-L S:ViT-S/16)	Top-1 accuracy %	83.93	—	Unverified
4	ScaleKD (T:Swin-L S:Swin-T)	Top-1 accuracy %	83.8	—	Unverified
5	KD++(T: regnety-16GF S:ViT-B)	Top-1 accuracy %	83.6	—	Unverified
6	VkD (T:RegNety 160 S:DeiT-S)	Top-1 accuracy %	82.9	—	Unverified
7	SpectralKD (T:Swin-S S:Swin-T)	Top-1 accuracy %	82.7	—	Unverified
8	ScaleKD (T:Swin-L S:ResNet-50)	Top-1 accuracy %	82.55	—	Unverified
9	DiffKD (T:Swin-L S: Swin-T)	Top-1 accuracy %	82.5	—	Unverified
10	DIST (T: Swin-L S: Swin-T)	Top-1 accuracy %	82.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SRD (T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	79.86	—	Unverified
2	shufflenet-v2(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	78.76	—	Unverified
3	MV-MR (T: CLIP/ViT-B-16 S: resnet50)	Top-1 Accuracy (%)	78.6	—	Unverified
4	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	78.28	—	Unverified
5	resnet8x4 (T: resnet32x4 S: resnet8x4 [modified])	Top-1 Accuracy (%)	78.08	—	Unverified
6	ReviewKD++(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	77.93	—	Unverified
7	ReviewKD++(T:resnet-32x4, S:shufflenet-v1)	Top-1 Accuracy (%)	77.68	—	Unverified
8	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	77.5	—	Unverified
9	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.68	—	Unverified
10	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.31	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	77.16	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	73.73	—	Unverified
3	ADLIK-Faster (T: Faster R-CNN vit-base S: Faster R-CNN deit-small)	box AP	47.6	—	Unverified
4	ADLIK-Mask (T: Mask R-CNN vit-base S: Mask R-CNN deit-small)	mask AP	42.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet50))	AP@0.5	61.8	—	Unverified
2	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet18))	AP@0.5	57.96	—	Unverified
3	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(mobilenet-v2))	AP@0.5	55.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	93.17	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	90.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TIE-KD (T: Adabins S: MobileNetV2)	RMSE	2.43	—	Unverified