Knowledge Distillation

Knowledge distillation is the process of transferring knowledge from a large model to a smaller one. While large models (such as very deep neural networks or ensembles of many models) have higher knowledge capacity than small models, this capacity might not be fully utilized.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3601–3650 of 4240 papers

Title	Date	Tasks	Status
Fair Feature Distillation for Visual Recognition	May 27, 2021	FairnessKnowledge Distillation	—Unverified
How Does Distilled Data Complexity Impact the Quality and Confidence of Non-Autoregressive Machine Translation?	May 27, 2021	DiversityKnowledge Distillation	—Unverified
KnowSR: Knowledge Sharing among Homogeneous Agents in Multi-agent Reinforcement Learning	May 25, 2021	Deep Reinforcement LearningKnowledge Distillation	—Unverified
Real-time Monocular Depth Estimation with Sparse Supervision on Mobile	May 25, 2021	Autonomous VehiclesDepth Estimation	—Unverified
Experimenting with Knowledge Distillation techniques for performing Brain Tumor Segmentation	May 24, 2021	Brain Tumor SegmentationKnowledge Distillation	—Unverified
AirNet: Neural Network Transmission over the Air	May 24, 2021	Knowledge Distillation	—Unverified
Revisiting Knowledge Distillation for Object Detection	May 22, 2021	Domain AdaptationKnowledge Distillation	—Unverified
Inplace knowledge distillation with teacher assistant for improved training of flexible deep neural networks	May 18, 2021	image-classificationImage Classification	—Unverified
Weakly Supervised Dense Video Captioning via Jointly Usage of Knowledge Distillation and Cross-modal Matching	May 18, 2021	Caption GenerationCross-Modal Retrieval	—Unverified
Class-Incremental Few-Shot Object Detection	May 17, 2021	ClusteringFew-Shot Object Detection	—Unverified
Stacked Acoustic-and-Textual Encoding: Integrating the Pre-trained Models into Speech Translation Encoders	May 12, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
KDExplainer: A Task-oriented Attention Model for Explaining Knowledge Distillation	May 10, 2021	Knowledge DistillationMixture-of-Experts	—Unverified
Test-Time Adaptation Toward Personalized Speech Enhancement: Zero-Shot Learning with Knowledge Distillation	May 8, 2021	DenoisingKnowledge Distillation	—Unverified
Regression Bugs Are In Your Model! Measuring, Reducing and Analyzing Regressions In NLP Model Updates	May 7, 2021	Knowledge Distillationmodel	—Unverified
Black-Box Dissector: Towards Erasing-based Hard-Label Model Stealing Attack	May 3, 2021	Knowledge DistillationSelf-Knowledge Distillation	—Unverified
A Peek Into the Reasoning of Neural Networks: Interpreting with Structural Visual Concepts	May 1, 2021	Explainable artificial intelligenceKnowledge Distillation	—Unverified
Knowledge Distillation for Swedish NER models: A Search for Performance and Efficiency	May 1, 2021	Knowledge DistillationModel Compression	—Unverified
Contrastive Conditioning for Assessing Disambiguation in MT: A Case Study of Distilled Bias	May 1, 2021	Knowledge DistillationMachine Translation	CodeCode Available
Semantic Relation Preserving Knowledge Distillation for Image-to-Image Translation	Apr 30, 2021	Image-to-Image TranslationKnowledge Distillation	—Unverified
Distilling EEG Representations via Capsules for Affective Computing	Apr 30, 2021	EEGElectroencephalogram (EEG)	—Unverified
LIDAR and Position-Aided mmWave Beam Selection with Non-local CNNs and Curriculum Training	Apr 29, 2021	Knowledge DistillationPosition	CodeCode Available
Spirit Distillation: A Model Compression Method with Multi-domain Knowledge Transfer	Apr 29, 2021	General KnowledgeKnowledge Distillation	—Unverified
Interpretable Embedding Procedure Knowledge Transfer via Stacked Principal Component Analysis and Graph Neural Network	Apr 28, 2021	Graph Neural NetworkKnowledge Distillation	CodeCode Available
Self-distillation with Batch Knowledge Ensembling Improves ImageNet Classification	Apr 27, 2021	ClassificationGeneral Classification	—Unverified
Extract then Distill: Efficient and Effective Task-Agnostic BERT Distillation	Apr 24, 2021	Knowledge Distillation	—Unverified
Relational Subsets Knowledge Distillation for Long-tailed Retinal Diseases Recognition	Apr 22, 2021	Knowledge Distillation	—Unverified
Orderly Dual-Teacher Knowledge Distillation for Lightweight Human Pose Estimation	Apr 21, 2021	BinarizationKnowledge Distillation	—Unverified
Brittle Features May Help Anomaly Detection	Apr 21, 2021	Anomaly DetectionKnowledge Distillation	—Unverified
Knowledge Distillation as Semiparametric Inference	Apr 20, 2021	Knowledge DistillationModel Compression	CodeCode Available
EduPal leaves no professor behind: Supporting faculty via a peer-powered recommender system	Apr 20, 2021	ChatbotKnowledge Distillation	—Unverified
Compact CNN Structure Learning by Knowledge Distillation	Apr 19, 2021	Knowledge DistillationModel Compression	—Unverified
Continual Learning for Fake Audio Detection	Apr 15, 2021	Continual LearningKnowledge Distillation	—Unverified
Integration of Pre-trained Networks with Continuous Token Interface for End-to-End Spoken Language Understanding	Apr 15, 2021	intent-classificationIntent Classification	—Unverified
Unsupervised Continual Learning Via Pseudo Labels	Apr 14, 2021	ClusteringContinual Learning	—Unverified
The Curious Case of Hallucinations in Neural Machine Translation	Apr 14, 2021	HallucinationKnowledge Distillation	CodeCode Available
Sentence Embeddings by Ensemble Distillation	Apr 14, 2021	Knowledge DistillationSemantic Textual Similarity	—Unverified
Annealing Knowledge Distillation	Apr 14, 2021	image-classificationImage Classification	CodeCode Available
Dealing with Missing Modalities in the Visual Question Answer-Difference Prediction Task through Knowledge Distillation	Apr 13, 2021	Knowledge DistillationTriplet	—Unverified
Source and Target Bidirectional Knowledge Distillation for End-to-end Speech Translation	Apr 13, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
RankDistil: Knowledge Distillation for Ranking	Apr 13, 2021	Document RankingKnowledge Distillation	—Unverified
CXR Segmentation by AdaIN-based Domain Adaptation and Knowledge Distillation	Apr 13, 2021	Domain AdaptationKnowledge Distillation	CodeCode Available
Dual Discriminator Adversarial Distillation for Data-free Model Compression	Apr 12, 2021	Data-free Knowledge DistillationKnowledge Distillation	—Unverified
Data-Free Knowledge Distillation with Soft Targeted Transfer Set Synthesis	Apr 10, 2021	Data-free Knowledge DistillationKnowledge Distillation	—Unverified
Towards Enabling Meta-Learning from Target Models	Apr 8, 2021	Few-Shot LearningInductive Bias	CodeCode Available
GKD: Semi-supervised Graph Knowledge Distillation for Graph-Independent Inference	Apr 8, 2021	Disease Predictiongraph construction	CodeCode Available
Distilling and Transferring Knowledge via cGAN-generated Samples for Image Classification and Regression	Apr 7, 2021	General Classificationimage-classification	CodeCode Available
Compressing Visual-linguistic Model via Knowledge Distillation	Apr 5, 2021	Image CaptioningKnowledge Distillation	—Unverified
Knowledge Distillation For Wireless Edge Learning	Apr 3, 2021	Cloud ComputingFederated Learning	CodeCode Available
Students are the Best Teacher: Exit-Ensemble Distillation with Multi-Exits	Apr 1, 2021	ClassificationGeneral Classification	CodeCode Available
Dialect Identification through Adversarial Learning and Knowledge Distillation on Romanian BERT	Apr 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 73 of 85Next →

All datasets ImageNet CIFAR-100 COCO (Common Objects in Context)COCO 2017 val PASCAL VOC KITTI

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ScaleKD (T:BEiT-L S:ViT-B/14)	Top-1 accuracy %	86.43	—	Unverified
2	ScaleKD (T:Swin-L S:ViT-B/16)	Top-1 accuracy %	85.53	—	Unverified
3	ScaleKD (T:Swin-L S:ViT-S/16)	Top-1 accuracy %	83.93	—	Unverified
4	ScaleKD (T:Swin-L S:Swin-T)	Top-1 accuracy %	83.8	—	Unverified
5	KD++(T: regnety-16GF S:ViT-B)	Top-1 accuracy %	83.6	—	Unverified
6	VkD (T:RegNety 160 S:DeiT-S)	Top-1 accuracy %	82.9	—	Unverified
7	SpectralKD (T:Swin-S S:Swin-T)	Top-1 accuracy %	82.7	—	Unverified
8	ScaleKD (T:Swin-L S:ResNet-50)	Top-1 accuracy %	82.55	—	Unverified
9	DiffKD (T:Swin-L S: Swin-T)	Top-1 accuracy %	82.5	—	Unverified
10	DIST (T: Swin-L S: Swin-T)	Top-1 accuracy %	82.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SRD (T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	79.86	—	Unverified
2	shufflenet-v2(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	78.76	—	Unverified
3	MV-MR (T: CLIP/ViT-B-16 S: resnet50)	Top-1 Accuracy (%)	78.6	—	Unverified
4	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	78.28	—	Unverified
5	resnet8x4 (T: resnet32x4 S: resnet8x4 [modified])	Top-1 Accuracy (%)	78.08	—	Unverified
6	ReviewKD++(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	77.93	—	Unverified
7	ReviewKD++(T:resnet-32x4, S:shufflenet-v1)	Top-1 Accuracy (%)	77.68	—	Unverified
8	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	77.5	—	Unverified
9	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.68	—	Unverified
10	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.31	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	77.16	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	73.73	—	Unverified
3	ADLIK-Faster (T: Faster R-CNN vit-base S: Faster R-CNN deit-small)	box AP	47.6	—	Unverified
4	ADLIK-Mask (T: Mask R-CNN vit-base S: Mask R-CNN deit-small)	mask AP	42.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet50))	AP@0.5	61.8	—	Unverified
2	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet18))	AP@0.5	57.96	—	Unverified
3	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(mobilenet-v2))	AP@0.5	55.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	93.17	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	90.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TIE-KD (T: Adabins S: MobileNetV2)	RMSE	2.43	—	Unverified