Knowledge Distillation

Knowledge distillation is the process of transferring knowledge from a large model to a smaller one. While large models (such as very deep neural networks or ensembles of many models) have higher knowledge capacity than small models, this capacity might not be fully utilized.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1601–1650 of 4240 papers

Title	Date	Tasks	Status
Cross-Architecture Knowledge Distillation	Jul 12, 2022	Knowledge Distillation	—Unverified
Enhancing Chinese Multi-Label Text Classification Performance with Response-based Knowledge Distillation	Nov 1, 2022	Knowledge DistillationMulti Label Text Classification	—Unverified
A Technical Study into Small Reasoning Language Models	Jun 16, 2025	Code GenerationComputational Efficiency	—Unverified
Federated Learning with Privacy-Preserving Ensemble Attention Distillation	Oct 16, 2022	Federated Learningimage-classification	—Unverified
Hard Gate Knowledge Distillation -- Leverage Calibration for Robust and Reliable Language Model	Oct 22, 2022	Knowledge DistillationLanguage Modeling	—Unverified
Federated Semi-Supervised Domain Adaptation via Knowledge Transfer	Jul 21, 2022	Domain AdaptationFederated Learning	—Unverified
Enhancing Adversarial Training with Prior Knowledge Distillation for Robust Image Compression	Mar 11, 2024	Backdoor AttackImage Compression	—Unverified
Compressing Image-to-Image Translation GANs Using Local Density Structures on Their Learned Manifold	Dec 22, 2023	Density EstimationImage-to-Image Translation	—Unverified
Compressing GANs using Knowledge Distillation	Feb 1, 2019	Knowledge DistillationSuper-Resolution	—Unverified
Adaptive Affinity-Based Generalization For MRI Imaging Segmentation Across Resource-Limited Settings	Apr 3, 2024	Data IntegrationKnowledge Distillation	—Unverified
Enhancing Action Recognition from Low-Quality Skeleton Data via Part-Level Knowledge Distillation	Apr 28, 2024	Action RecognitionGeneral Knowledge	—Unverified
FedKD: Communication Efficient Federated Learning via Knowledge Distillation	Aug 30, 2021	Federated LearningKnowledge Distillation	—Unverified
A Generalized and Robust Method Towards Practical Gaze Estimation on Smart Phone	Oct 16, 2019	Gaze EstimationKnowledge Distillation	—Unverified
Handling Long-tailed Feature Distribution in AdderNets	Dec 1, 2021	Knowledge Distillation	—Unverified
Enhancing Accuracy and Parameter-Efficiency of Neural Representations for Network Parameterization	Jun 29, 2024	Knowledge Distillation	—Unverified
Enhancing Abstractiveness of Summarization Models through Calibrated Distillation	Oct 20, 2023	Abstractive Text SummarizationInformativeness	—Unverified
Compressing Deep Image Super-resolution Models	Dec 31, 2023	Image Super-ResolutionKnowledge Distillation	—Unverified
FedRAD: Federated Robust Adaptive Distillation	Dec 2, 2021	Federated LearningKnowledge Distillation	—Unverified
Hands-on Guidance for Distilling Object Detectors	Mar 26, 2021	Knowledge DistillationObject	—Unverified
FedSDD: Scalable and Diversity-enhanced Distillation for Model Aggregation in Federated Learning	Dec 28, 2023	DiversityFederated Learning	—Unverified
Cross-Level Multi-Instance Distillation for Self-Supervised Fine-Grained Visual Categorization	Jan 16, 2024	Fine-Grained Visual CategorizationKnowledge Distillation	—Unverified
FedSKD: Aggregation-free Model-heterogeneous Federated Learning using Multi-dimensional Similarity Knowledge Distillation	Mar 23, 2025	Federated LearningKnowledge Distillation	—Unverified
HARD: Hard Augmentations for Robust Distillation	May 24, 2023	Data AugmentationDomain Generalization	—Unverified
FedSPLIT: One-Shot Federated Recommendation System Based on Non-negative Joint Matrix Factorization and Knowledge Distillation	May 4, 2022	Collaborative FilteringFederated Learning	—Unverified
FedTAD: Topology-aware Data-free Knowledge Distillation for Subgraph Federated Learning	Apr 22, 2024	Data-free Knowledge DistillationFederated Learning	—Unverified
FedUD: Exploiting Unaligned Data for Cross-Platform Federated Click-Through Rate Prediction	Jul 26, 2024	Click-Through Rate PredictionFederated Learning	—Unverified
Enhanced Sparsification via Stimulative Training	Mar 11, 2024	Knowledge DistillationModel Compression	—Unverified
Enhanced Multimodal Representation Learning with Cross-modal KD	Jun 13, 2023	Contrastive LearningEmotion Classification	—Unverified
FEED: Feature-level Ensemble Effect for knowledge Distillation	May 1, 2019	Knowledge DistillationTransfer Learning	—Unverified
FEED: Feature-level Ensemble for Knowledge Distillation	Sep 24, 2019	Knowledge Distillation	—Unverified
Compressed Meta-Optical Encoder for Image Classification	Apr 23, 2024	Classificationimage-classification	—Unverified
Energy-efficient Knowledge Distillation for Spiking Neural Networks	Jun 14, 2021	Knowledge DistillationModel Compression	—Unverified
Comprehensive Survey of Model Compression and Speed up for Vision Transformers	Apr 16, 2024	Computational EfficiencyEdge-computing	—Unverified
After-Stroke Arm Paresis Detection using Kinematic Data	Nov 3, 2023	Action ClassificationKnowledge Distillation	—Unverified
End-to-End Speech-Translation with Knowledge Distillation: FBK@IWSLT2020	Jun 4, 2020	Data AugmentationKnowledge Distillation	—Unverified
Cross Modal Distillation for Flood Extent Mapping	Feb 16, 2023	Knowledge Distillation	—Unverified
End-to-End Speech Translation with Knowledge Distillation	Apr 17, 2019	Knowledge Distillationspeech-recognition	—Unverified
Few-shot learning of neural networks from scratch by pseudo example optimization	Feb 8, 2018	Few-Shot LearningKnowledge Distillation	—Unverified
Comprehensive Study on Performance Evaluation and Optimization of Model Compression: Bridging Traditional Deep Learning and Large Language Models	Jul 22, 2024	Deep Learningimage-classification	—Unverified
End-to-End Simultaneous Speech Translation with Pretraining and Distillation: Huawei Noah’s System for AutoSimTranS 2022	Jul 1, 2022	DecoderKnowledge Distillation	—Unverified
FGAD: Self-boosted Knowledge Distillation for An Effective Federated Graph Anomaly Detection Framework	Feb 20, 2024	Anomaly DetectionFederated Learning	—Unverified
A methodology for training homomorphicencryption friendly neural networks	Nov 5, 2021	Knowledge DistillationPrivacy Preserving	—Unverified
End-to-end fully-binarized network design: from Generic Learned Thermometer to Block Pruning	May 5, 2025	Knowledge DistillationQuantization	—Unverified
Fine-Grained Distillation for Long Document Retrieval	Dec 20, 2022	Knowledge DistillationRetrieval	—Unverified
Fine-grained Image Retrieval via Dual-Vision Adaptation	Jun 19, 2025	Image RetrievalKnowledge Distillation	—Unverified
Cross-modal knowledge distillation for action recognition	Oct 10, 2019	Action RecognitionKnowledge Distillation	—Unverified
Fine-tune Before Structured Pruning: Towards Compact and Accurate Self-Supervised Models for Speaker Diarization	May 30, 2025	GPUKnowledge Distillation	—Unverified
Fine-tuning a Multiple Instance Learning Feature Extractor with Masked Context Modelling and Knowledge Distillation	Mar 8, 2024	Image GenerationKnowledge Distillation	—Unverified
Comprehensive Pathological Image Segmentation via Teacher Aggregation for Tumor Microenvironment Analysis	Jan 6, 2025	Decision MakingDiversity	—Unverified
Edge Bias in Federated Learning and its Solution by Buffered Knowledge Distillation	Oct 20, 2020	Federated LearningKnowledge Distillation	—Unverified

Show:10 25 50

← PrevPage 33 of 85Next →

All datasets ImageNet CIFAR-100 COCO (Common Objects in Context)COCO 2017 val PASCAL VOC KITTI

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ScaleKD (T:BEiT-L S:ViT-B/14)	Top-1 accuracy %	86.43	—	Unverified
2	ScaleKD (T:Swin-L S:ViT-B/16)	Top-1 accuracy %	85.53	—	Unverified
3	ScaleKD (T:Swin-L S:ViT-S/16)	Top-1 accuracy %	83.93	—	Unverified
4	ScaleKD (T:Swin-L S:Swin-T)	Top-1 accuracy %	83.8	—	Unverified
5	KD++(T: regnety-16GF S:ViT-B)	Top-1 accuracy %	83.6	—	Unverified
6	VkD (T:RegNety 160 S:DeiT-S)	Top-1 accuracy %	82.9	—	Unverified
7	SpectralKD (T:Swin-S S:Swin-T)	Top-1 accuracy %	82.7	—	Unverified
8	ScaleKD (T:Swin-L S:ResNet-50)	Top-1 accuracy %	82.55	—	Unverified
9	DiffKD (T:Swin-L S: Swin-T)	Top-1 accuracy %	82.5	—	Unverified
10	DIST (T: Swin-L S: Swin-T)	Top-1 accuracy %	82.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SRD (T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	79.86	—	Unverified
2	shufflenet-v2(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	78.76	—	Unverified
3	MV-MR (T: CLIP/ViT-B-16 S: resnet50)	Top-1 Accuracy (%)	78.6	—	Unverified
4	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	78.28	—	Unverified
5	resnet8x4 (T: resnet32x4 S: resnet8x4 [modified])	Top-1 Accuracy (%)	78.08	—	Unverified
6	ReviewKD++(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	77.93	—	Unverified
7	ReviewKD++(T:resnet-32x4, S:shufflenet-v1)	Top-1 Accuracy (%)	77.68	—	Unverified
8	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	77.5	—	Unverified
9	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.68	—	Unverified
10	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.31	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	77.16	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	73.73	—	Unverified
3	ADLIK-Faster (T: Faster R-CNN vit-base S: Faster R-CNN deit-small)	box AP	47.6	—	Unverified
4	ADLIK-Mask (T: Mask R-CNN vit-base S: Mask R-CNN deit-small)	mask AP	42.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet50))	AP@0.5	61.8	—	Unverified
2	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet18))	AP@0.5	57.96	—	Unverified
3	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(mobilenet-v2))	AP@0.5	55.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	93.17	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	90.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TIE-KD (T: Adabins S: MobileNetV2)	RMSE	2.43	—	Unverified