Knowledge Distillation

Knowledge distillation is the process of transferring knowledge from a large model to a smaller one. While large models (such as very deep neural networks or ensembles of many models) have higher knowledge capacity than small models, this capacity might not be fully utilized.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3251–3300 of 4240 papers

Title	Date	Tasks	Status
MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided Adaptation	Jan 16, 2022	Knowledge DistillationMixture-of-Experts	—Unverified
CL-ReKD: Cross-lingual Knowledge Distillation for Multilingual Retrieval Question Answering	Jan 16, 2022	Knowledge DistillationLanguage Modeling	—Unverified
Nearest Neighbor Knowledge Distillation for Neural Machine Translation	Jan 16, 2022	Knowledge DistillationMachine Translation	—Unverified
Transferring Knowledge from Structure-aware Self-attention Language Model to Sequence-to-Sequence Semantic Parsing	Jan 16, 2022	Code GenerationKnowledge Distillation	—Unverified
Tree Knowledge Distillation for Compressing Transformer-Based Language Models	Jan 16, 2022	Knowledge Distillation	—Unverified
Technical Report for ICCV 2021 Challenge SSLAD-Track3B: Transformers Are Better Continual Learners	Jan 13, 2022	Continual LearningKnowledge Distillation	—Unverified
On Exploring Pose Estimation as an Auxiliary Learning Task for Visible-Infrared Person Re-identification	Jan 11, 2022	Auxiliary LearningKnowledge Distillation	CodeCode Available
FedDTG:Federated Data-Free Knowledge Distillation via Three-Player Generative Adversarial Networks	Jan 10, 2022	Data-free Knowledge DistillationFederated Learning	—Unverified
Two-Pass End-to-End ASR Model Compression	Jan 8, 2022	DecoderKnowledge Distillation	—Unverified
Microdosing: Knowledge Distillation for GAN based Compression	Jan 7, 2022	Knowledge DistillationVideo Compression	—Unverified
Class-Incremental Continual Learning into the eXtended DER-verse	Jan 3, 2022	Continual LearningKnowledge Distillation	—Unverified
Which Student is Best? A Comprehensive Knowledge Distillation Exam for Task-Specific BERT Models	Jan 3, 2022	CPUData Augmentation	—Unverified
Improving Video Model Transfer With Dynamic Representation Learning	Jan 1, 2022	Action ClassificationKnowledge Distillation	—Unverified
Distillation Using Oracle Queries for Transformer-Based Human-Object Interaction Detection	Jan 1, 2022	Data AugmentationDecoder	—Unverified
Class Similarity Weighted Knowledge Distillation for Continual Semantic Segmentation	Jan 1, 2022	Continual LearningContinual Semantic Segmentation	—Unverified
Image Restoration using Feature-guidance	Jan 1, 2022	Image RestorationKnowledge Distillation	—Unverified
Performance-Aware Mutual Knowledge Distillation for Improving Neural Architecture Search	Jan 1, 2022	Knowledge DistillationNeural Architecture Search	—Unverified
Multi-Objective Diverse Human Motion Prediction With Knowledge Distillation	Jan 1, 2022	Autonomous DrivingDiversity	—Unverified
Conditional Generative Data-free Knowledge Distillation	Dec 31, 2021	Conditional Image GenerationData-free Knowledge Distillation	—Unverified
Data-Free Knowledge Transfer: A Survey	Dec 31, 2021	Data-free Knowledge DistillationDomain Adaptation	—Unverified
An Efficient Federated Distillation Learning System for Multi-task Time Series Classification	Dec 30, 2021	Knowledge DistillationTime Series	—Unverified
Automatic Mixed-Precision Quantization Search of BERT	Dec 30, 2021	Knowledge DistillationModel Compression	—Unverified
Online Adversarial Knowledge Distillation for Graph Neural Networks	Dec 28, 2021	Knowledge Distillation	CodeCode Available
Distilling the Knowledge of Romanian BERTs Using Multiple Teachers	Dec 23, 2021	Dialect IdentificationGPU	CodeCode Available
Adaptive Beam Search to Enhance On-device Abstractive Summarization	Dec 22, 2021	Abstractive Text SummarizationKnowledge Distillation	—Unverified
Self-Distillation Mixup Training for Non-autoregressive Neural Machine Translation	Dec 22, 2021	Knowledge DistillationMachine Translation	—Unverified
Supervised Graph Contrastive Pretraining for Text Classification	Dec 21, 2021	ClassificationContrastive Learning	—Unverified
Multi-Modality Distillation via Learning the teacher's modality-level Gram Matrix	Dec 21, 2021	Knowledge Distillation	—Unverified
Controlling the Quality of Distillation in Response-Based Network Compression	Dec 19, 2021	Knowledge Distillation	—Unverified
LegoDNN: Block-grained Scaling of Deep Neural Networks for Mobile Vision	Dec 18, 2021	Knowledge DistillationModel Compression	—Unverified
Weakly Supervised Semantic Segmentation via Alternative Self-Dual Teaching	Dec 17, 2021	Knowledge DistillationSemantic Segmentation	—Unverified
Distillation of Human-Object Interaction Contexts for Action Recognition	Dec 17, 2021	Action RecognitionGraph Attention	—Unverified
Knowledge Distillation Improves Stability in Retranslation-based Simultaneous Translation	Dec 17, 2021	Knowledge DistillationTranslation	—Unverified
Towards Disturbance-Free Visual Mobile Manipulation	Dec 17, 2021	Collision AvoidanceDeep Reinforcement Learning	CodeCode Available
Distill and De-bias: Mitigating Bias in Face Verification using Knowledge Distillation	Dec 17, 2021	AttributeFace Recognition	—Unverified
Amortized Noisy Channel Neural Machine Translation	Dec 16, 2021	Imitation LearningKnowledge Distillation	—Unverified
Towards a Unified Foundation Model: Jointly Pre-Training Transformers on Unpaired Images and Text	Dec 14, 2021	image-classificationImage Classification	—Unverified
On the Use of External Data for Spoken Named Entity Recognition	Dec 14, 2021	Knowledge Distillationnamed-entity-recognition	CodeCode Available
Improving Sequential Recommendations via Bidirectional Temporal Data Augmentation with Pre-training	Dec 13, 2021	Data AugmentationKnowledge Distillation	CodeCode Available
Lifelong Unsupervised Domain Adaptive Person Re-identification with Coordinated Anti-forgetting and Adaptation	Dec 13, 2021	Domain Adaptive Person Re-IdentificationKnowledge Distillation	—Unverified
Human Guided Exploitation of Interpretable Attention Patterns in Summarization and Topic Segmentation	Dec 10, 2021	Extractive SummarizationKnowledge Distillation	CodeCode Available
Mutual Adversarial Training: Learning together is better than going alone	Dec 9, 2021	Knowledge Distillation	—Unverified
Knowledge Distillation for Object Detection via Rank Mimicking and Prediction-guided Feature Imitation	Dec 9, 2021	image-classificationImage Classification	—Unverified
Boosting Contrastive Learning with Relation Knowledge Distillation	Dec 8, 2021	Contrastive LearningKnowledge Distillation	—Unverified
ADD: Frequency Attention and Multi-View based Knowledge Distillation to Detect Low-Quality Compressed Deepfake Images	Dec 7, 2021	DeepFake DetectionFace Swapping	CodeCode Available
Auxiliary Learning for Self-Supervised Video Representation via Similarity-based Knowledge Distillation	Dec 7, 2021	Auxiliary LearningKnowledge Distillation	CodeCode Available
CLASSIC: Continual and Contrastive Learning of Aspect Sentiment Classification Tasks	Dec 5, 2021	ClassificationContinual Learning	—Unverified
Safe Distillation Box	Dec 5, 2021	Knowledge Distillation	—Unverified
Extracting knowledge from features with multilevel abstraction	Dec 4, 2021	Data AugmentationKnowledge Distillation	—Unverified
KDCTime: Knowledge Distillation with Calibration on InceptionTime for Time-series Classification	Dec 4, 2021	Knowledge DistillationTime Series	—Unverified

Show:10 25 50

← PrevPage 66 of 85Next →

All datasets ImageNet CIFAR-100 COCO (Common Objects in Context)COCO 2017 val PASCAL VOC KITTI

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ScaleKD (T:BEiT-L S:ViT-B/14)	Top-1 accuracy %	86.43	—	Unverified
2	ScaleKD (T:Swin-L S:ViT-B/16)	Top-1 accuracy %	85.53	—	Unverified
3	ScaleKD (T:Swin-L S:ViT-S/16)	Top-1 accuracy %	83.93	—	Unverified
4	ScaleKD (T:Swin-L S:Swin-T)	Top-1 accuracy %	83.8	—	Unverified
5	KD++(T: regnety-16GF S:ViT-B)	Top-1 accuracy %	83.6	—	Unverified
6	VkD (T:RegNety 160 S:DeiT-S)	Top-1 accuracy %	82.9	—	Unverified
7	SpectralKD (T:Swin-S S:Swin-T)	Top-1 accuracy %	82.7	—	Unverified
8	ScaleKD (T:Swin-L S:ResNet-50)	Top-1 accuracy %	82.55	—	Unverified
9	DiffKD (T:Swin-L S: Swin-T)	Top-1 accuracy %	82.5	—	Unverified
10	DIST (T: Swin-L S: Swin-T)	Top-1 accuracy %	82.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SRD (T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	79.86	—	Unverified
2	shufflenet-v2(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	78.76	—	Unverified
3	MV-MR (T: CLIP/ViT-B-16 S: resnet50)	Top-1 Accuracy (%)	78.6	—	Unverified
4	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	78.28	—	Unverified
5	resnet8x4 (T: resnet32x4 S: resnet8x4 [modified])	Top-1 Accuracy (%)	78.08	—	Unverified
6	ReviewKD++(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	77.93	—	Unverified
7	ReviewKD++(T:resnet-32x4, S:shufflenet-v1)	Top-1 Accuracy (%)	77.68	—	Unverified
8	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	77.5	—	Unverified
9	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.68	—	Unverified
10	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.31	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	77.16	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	73.73	—	Unverified
3	ADLIK-Faster (T: Faster R-CNN vit-base S: Faster R-CNN deit-small)	box AP	47.6	—	Unverified
4	ADLIK-Mask (T: Mask R-CNN vit-base S: Mask R-CNN deit-small)	mask AP	42.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet50))	AP@0.5	61.8	—	Unverified
2	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet18))	AP@0.5	57.96	—	Unverified
3	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(mobilenet-v2))	AP@0.5	55.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	93.17	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	90.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TIE-KD (T: Adabins S: MobileNetV2)	RMSE	2.43	—	Unverified