Knowledge Distillation

Knowledge distillation is the process of transferring knowledge from a large model to a smaller one. While large models (such as very deep neural networks or ensembles of many models) have higher knowledge capacity than small models, this capacity might not be fully utilized.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 701–750 of 4240 papers

Title	Date	Tasks	Status	Hype
KD-Lib: A PyTorch library for Knowledge Distillation, Pruning and Quantization	Nov 30, 2020	Knowledge DistillationModel Compression	CodeCode Available	1
KD-LoRA: A Hybrid Approach to Efficient Fine-Tuning with LoRA and Knowledge Distillation	Oct 28, 2024	GPUKnowledge Distillation	CodeCode Available	1
A Discrepancy Aware Framework for Robust Anomaly Detection	Oct 11, 2023	Anomaly DetectionDecoder	CodeCode Available	1
Discriminator-Cooperated Feature Map Distillation for GAN Compression	Dec 29, 2022	Image GenerationKnowledge Distillation	CodeCode Available	1
AdaDistill: Adaptive Knowledge Distillation for Deep Face Recognition	Jul 1, 2024	Face RecognitionKnowledge Distillation	CodeCode Available	1
Knowledge Condensation Distillation	Jul 12, 2022	Knowledge Distillation	CodeCode Available	1
Distilling Knowledge from Graph Convolutional Networks	Mar 23, 2020	Knowledge DistillationTransfer Learning	CodeCode Available	1
Confidence-Aware Multi-Teacher Knowledge Distillation	Dec 30, 2021	Knowledge DistillationTransfer Learning	CodeCode Available	1
Knowledge Distillation as Efficient Pre-training: Faster Convergence, Higher Data-efficiency, and Better Transferability	Mar 10, 2022	Knowledge Distillation	CodeCode Available	1
Knowledge Distillation based Degradation Estimation for Blind Super-Resolution	Nov 30, 2022	Blind Super-ResolutionImage Super-Resolution	CodeCode Available	1
Knowledge Distillation for Feature Extraction in Underwater VSLAM	Mar 31, 2023	BinarizationKnowledge Distillation	CodeCode Available	1
Knowledge Distillation for Multi-task Learning	Jul 14, 2020	Knowledge DistillationMulti-Task Learning	CodeCode Available	1
Conformer and Blind Noisy Students for Improved Image Quality Assessment	Apr 27, 2022	Image Quality AssessmentImage Restoration	CodeCode Available	1
Knowledge Distillation from A Stronger Teacher	May 21, 2022	image-classificationImage Classification	CodeCode Available	1
Directed Acyclic Transformer for Non-Autoregressive Machine Translation	May 16, 2022	Knowledge DistillationMachine Translation	CodeCode Available	1
ConNER: Consistency Training for Cross-lingual Named Entity Recognition	Nov 17, 2022	Cross-Lingual NERKnowledge Distillation	CodeCode Available	1
Consensual Collaborative Training And Knowledge Distillation Based Facial Expression Recognition Under Noisy Annotations	Jul 10, 2021	Facial Expression RecognitionFacial Expression Recognition (FER)	CodeCode Available	1
Consistent Representation Learning for Continual Relation Extraction	Mar 5, 2022	Continual Relation ExtractionContrastive Learning	CodeCode Available	1
DisCo: Distilled Student Models Co-training for Semi-supervised Text Mining	May 20, 2023	Extractive SummarizationKnowledge Distillation	CodeCode Available	1
Camera clustering for scalable stream-based active distillation	Apr 16, 2024	ClusteringKnowledge Distillation	CodeCode Available	1
Designing Large Foundation Models for Efficient Training and Inference: A Survey	Sep 3, 2024	Knowledge DistillationModel Compression	CodeCode Available	1
Content-Aware GAN Compression	Apr 6, 2021	Image GenerationImage Manipulation	CodeCode Available	1
AGKD-BML: Defense Against Adversarial Attack by Attention Guided Knowledge Distillation and Bi-directional Metric Learning	Aug 13, 2021	Adversarial AttackAdversarial Robustness	CodeCode Available	1
Content-Variant Reference Image Quality Assessment via Knowledge Distillation	Feb 26, 2022	Image Quality AssessmentKnowledge Distillation	CodeCode Available	1
Context-Aware Image Inpainting with Learned Semantic Priors	Jun 14, 2021	Image InpaintingKnowledge Distillation	CodeCode Available	1
Audio Embeddings as Teachers for Music Classification	Jun 30, 2023	ClassificationInformation Retrieval	CodeCode Available	1
CTC-based Non-autoregressive Textless Speech-to-Speech Translation	Jun 11, 2024	Knowledge DistillationMachine Translation	CodeCode Available	1
Knowledge Inheritance for Pre-trained Language Models	May 28, 2021	Domain AdaptationKnowledge Distillation	CodeCode Available	1
Knowledge Transfer via Dense Cross-Layer Mutual-Distillation	Aug 18, 2020	Knowledge DistillationRepresentation Learning	CodeCode Available	1
LabelDistill: Label-guided Cross-modal Knowledge Distillation for Camera-based 3D Object Detection	Jul 14, 2024	3D Object DetectionDepth Estimation	CodeCode Available	1
Continual All-in-One Adverse Weather Removal with Knowledge Replay on a Unified Network Structure	Mar 12, 2024	AllContinual Learning	CodeCode Available	1
Audio-Visual Representation Learning via Knowledge Distillation from Speech Foundation Models	Feb 9, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	1
Continual Collaborative Distillation for Recommender System	May 29, 2024	Knowledge DistillationRecommendation Systems	CodeCode Available	1
Agree to Disagree: Adaptive Ensemble Knowledge Distillation in Gradient Space	Dec 1, 2020	DiversityKnowledge Distillation	CodeCode Available	1
Anomaly Detection in Video via Self-Supervised and Multi-Task Learning	Nov 15, 2020	Abnormal Event Detection In VideoAnomaly Detection	CodeCode Available	1
DistilCSE: Effective Knowledge Distillation For Contrastive Sentence Embeddings	Dec 10, 2021	Contrastive LearningKnowledge Distillation	CodeCode Available	1
Continual evaluation for lifelong learning: Identifying the stability gap	May 26, 2022	Continual LearningIncremental Learning	CodeCode Available	1
Learn from Foundation Model: Fruit Detection Model without Manual Annotation	Nov 25, 2024	Instance SegmentationKnowledge Distillation	CodeCode Available	1
AICSD: Adaptive Inter-Class Similarity Distillation for Semantic Segmentation	Aug 8, 2023	Knowledge DistillationSemantic Segmentation	CodeCode Available	1
Learning Compatible Embeddings	Aug 4, 2021	Knowledge DistillationRetrieval	CodeCode Available	1
Continual Learning for Image Segmentation with Dynamic Query	Nov 29, 2023	Continual LearningDiversity	CodeCode Available	1
Continual Learning for LiDAR Semantic Segmentation: Class-Incremental and Coarse-to-Fine strategies on Sparse Data	Apr 8, 2023	class-incremental learningClass Incremental Learning	CodeCode Available	1
Distillation and Refinement of Reasoning in Small Language Models for Document Re-ranking	Apr 4, 2025	Document RankingInformation Retrieval	CodeCode Available	1
Distilling Holistic Knowledge with Graph Neural Networks	Aug 12, 2021	Knowledge Distillation	CodeCode Available	1
Learning Generalizable Models for Vehicle Routing Problems via Knowledge Distillation	Oct 14, 2022	Knowledge Distillation	CodeCode Available	1
Learning Light-Weight Translation Models from Deep Transformer	Dec 27, 2020	Knowledge DistillationMachine Translation	CodeCode Available	1
Cumulative Spatial Knowledge Distillation for Vision Transformers	Jul 17, 2023	Inductive BiasKnowledge Distillation	CodeCode Available	1
DiGA: Distil to Generalize and then Adapt for Domain Adaptive Semantic Segmentation	Apr 5, 2023	Data AugmentationKnowledge Distillation	CodeCode Available	1
Learning to Learn Parameterized Classification Networks for Scalable Input Images	Jul 13, 2020	ClassificationGeneral Classification	CodeCode Available	1
CaMEL: Mean Teacher Learning for Image Captioning	Feb 21, 2022	Image CaptioningKnowledge Distillation	CodeCode Available	1

Show:10 25 50

← PrevPage 15 of 85Next →

All datasets ImageNet CIFAR-100 COCO (Common Objects in Context)COCO 2017 val PASCAL VOC KITTI

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ScaleKD (T:BEiT-L S:ViT-B/14)	Top-1 accuracy %	86.43	—	Unverified
2	ScaleKD (T:Swin-L S:ViT-B/16)	Top-1 accuracy %	85.53	—	Unverified
3	ScaleKD (T:Swin-L S:ViT-S/16)	Top-1 accuracy %	83.93	—	Unverified
4	ScaleKD (T:Swin-L S:Swin-T)	Top-1 accuracy %	83.8	—	Unverified
5	KD++(T: regnety-16GF S:ViT-B)	Top-1 accuracy %	83.6	—	Unverified
6	VkD (T:RegNety 160 S:DeiT-S)	Top-1 accuracy %	82.9	—	Unverified
7	SpectralKD (T:Swin-S S:Swin-T)	Top-1 accuracy %	82.7	—	Unverified
8	ScaleKD (T:Swin-L S:ResNet-50)	Top-1 accuracy %	82.55	—	Unverified
9	DiffKD (T:Swin-L S: Swin-T)	Top-1 accuracy %	82.5	—	Unverified
10	DIST (T: Swin-L S: Swin-T)	Top-1 accuracy %	82.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SRD (T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	79.86	—	Unverified
2	shufflenet-v2(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	78.76	—	Unverified
3	MV-MR (T: CLIP/ViT-B-16 S: resnet50)	Top-1 Accuracy (%)	78.6	—	Unverified
4	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	78.28	—	Unverified
5	resnet8x4 (T: resnet32x4 S: resnet8x4 [modified])	Top-1 Accuracy (%)	78.08	—	Unverified
6	ReviewKD++(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	77.93	—	Unverified
7	ReviewKD++(T:resnet-32x4, S:shufflenet-v1)	Top-1 Accuracy (%)	77.68	—	Unverified
8	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	77.5	—	Unverified
9	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.68	—	Unverified
10	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.31	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	77.16	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	73.73	—	Unverified
3	ADLIK-Faster (T: Faster R-CNN vit-base S: Faster R-CNN deit-small)	box AP	47.6	—	Unverified
4	ADLIK-Mask (T: Mask R-CNN vit-base S: Mask R-CNN deit-small)	mask AP	42.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet50))	AP@0.5	61.8	—	Unverified
2	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet18))	AP@0.5	57.96	—	Unverified
3	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(mobilenet-v2))	AP@0.5	55.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	93.17	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	90.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TIE-KD (T: Adabins S: MobileNetV2)	RMSE	2.43	—	Unverified