Knowledge Distillation

Knowledge distillation is the process of transferring knowledge from a large model to a smaller one. While large models (such as very deep neural networks or ensembles of many models) have higher knowledge capacity than small models, this capacity might not be fully utilized.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3151–3200 of 4240 papers

Title	Date	Tasks	Status
Distilling GANs with Style-Mixed Triplets for X2I Translation with Limited Data	Sep 29, 2021	Image GenerationKnowledge Distillation	—Unverified
Distilling Generative-Discriminative Representations for Very Low-Resolution Face Recognition	Sep 10, 2024	Face RecognitionKnowledge Distillation	—Unverified
Distilling HuBERT with LSTMs via Decoupled Knowledge Distillation	Sep 18, 2023	Automatic Speech RecognitionKnowledge Distillation	—Unverified
Distilling Inductive Bias: Knowledge Distillation Beyond Model Compression	Sep 30, 2023	Inductive BiasKnowledge Distillation	—Unverified
Distilling Inter-Class Distance for Semantic Segmentation	May 7, 2022	Knowledge DistillationPosition	—Unverified
Distilling Invariant Representations with Dual Augmentation	Oct 12, 2024	Knowledge Distillation	—Unverified
Distilling Knowledge for Short-to-Long Term Trajectory Prediction	May 15, 2023	Knowledge DistillationPrediction	—Unverified
Distilling Knowledge from CNN-Transformer Models for Enhanced Human Action Recognition	Nov 2, 2023	Action RecognitionKnowledge Distillation	—Unverified
Distilling Knowledge from Deep Networks with Applications to Healthcare Domain	Dec 11, 2015	Computational PhenotypingDecision Making	—Unverified
Distilling Knowledge from Heterogeneous Architectures for Semantic Segmentation	Apr 10, 2025	Knowledge DistillationSemantic Segmentation	—Unverified
Distilling Knowledge from Pre-trained Language Models via Text Smoothing	May 8, 2020	Knowledge DistillationLanguage Modeling	—Unverified
Distilling Knowledge from Resource Management Algorithms to Neural Networks: A Unified Training Assistance Approach	Aug 15, 2023	Knowledge DistillationManagement	—Unverified
Distilling Knowledge into Quantum Vision Transformers for Biomedical Image Classification	Mar 10, 2025	image-classificationImage Classification	—Unverified
Distilling Large Language Models for Efficient Clinical Information Extraction	Dec 21, 2024	Knowledge Distillationnamed-entity-recognition	—Unverified
Distilling Missing Modality Knowledge from Ultrasound for Endometriosis Diagnosis with Magnetic Resonance Images	Jul 5, 2023	Knowledge Distillation	—Unverified
Distilling Monocular Foundation Model for Fine-grained Depth Completion	Jan 1, 2025	Autonomous DrivingDepth Completion	—Unverified
Distilling Multi-Level X-vector Knowledge for Small-footprint Speaker Verification	Mar 2, 2023	Knowledge DistillationSpeaker Verification	—Unverified
Distilling Named Entity Recognition Models for Endangered Species from Large Language Models	Mar 13, 2024	In-Context LearningKnowledge Distillation	—Unverified
Distilling Normalizing Flows	Jun 26, 2025	Density EstimationKnowledge Distillation	—Unverified
Distilling Object Detectors with Task Adaptive Regularization	Jun 23, 2020	Knowledge DistillationObject	—Unverified
Distilling ODE Solvers of Diffusion Models into Smaller Steps	Sep 28, 2023	DenoisingKnowledge Distillation	—Unverified
Distilling Optimal Neural Networks: Rapid Search in Diverse Spaces	Dec 16, 2020	GPUKnowledge Distillation	—Unverified
Distilling Pixel-Wise Feature Similarities for Semantic Segmentation	Oct 31, 2019	Knowledge DistillationNeural Network Compression	—Unverified
Distilling portable Generative Adversarial Networks for Image Translation	Mar 7, 2020	Image-to-Image TranslationKnowledge Distillation	—Unverified
Distilling Privileged Multimodal Information for Expression Recognition using Optimal Transport	Jan 27, 2024	DiversityKnowledge Distillation	—Unverified
Distilling Spatially-Heterogeneous Distortion Perception for Blind Image Quality Assessment	Jan 1, 2025	Blind Image Quality AssessmentImage Quality Assessment	—Unverified
Distilling Spikes: Knowledge Distillation in Spiking Neural Networks	May 1, 2020	image-classificationImage Classification	—Unverified
Distilling Structured Knowledge for Text-Based Relational Reasoning	Nov 1, 2020	Contrastive LearningKnowledge Distillation	—Unverified
Distilling Temporal Knowledge with Masked Feature Reconstruction for 3D Object Detection	Jan 3, 2024	3D Object DetectionKnowledge Distillation	—Unverified
Distilling Text Style Transfer With Self-Explanation From LLMs	Mar 2, 2024	In-Context LearningKnowledge Distillation	—Unverified
Distilling the Knowledge in Data Pruning	Mar 12, 2024	Knowledge Distillation	—Unverified
Distilling BERT into Simple Neural Networks with Unlabeled Transfer Data	Oct 4, 2019	Knowledge DistillationNER	—Unverified
Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification	Jul 21, 2024	Data-free Knowledge DistillationImage Generation	—Unverified
Distill or Annotate? Cost-Efficient Fine-Tuning of Compact Models	May 2, 2023	Knowledge Distillation	—Unverified
DistillSpec: Improving Speculative Decoding via Knowledge Distillation	Oct 12, 2023	Knowledge DistillationLanguage Modelling	—Unverified
Distill-then-prune: An Efficient Compression Framework for Real-time Stereo Matching Network on Edge Devices	May 20, 2024	Knowledge DistillationStereo Matching	—Unverified
Distill to Delete: Unlearning in Graph Networks with Knowledge Distillation	Sep 28, 2023	GPUGraph Neural Network	—Unverified
Distill-to-Label: Weakly Supervised Instance Labeling Using Knowledge Distillation	Jul 26, 2019	Breast Cancer DetectionInstance Segmentation	—Unverified
DistillW2V2: A Small and Streaming Wav2vec 2.0 Based ASR Model	Mar 16, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
DistPro: Searching A Fast Knowledge Distillation Process via Meta Optimization	Apr 12, 2022	Knowledge DistillationMeta-Learning	—Unverified
Distributed Learning for Wi-Fi AP Load Prediction	Apr 22, 2024	Federated LearningKnowledge Distillation	—Unverified
Distribution Shift Matters for Knowledge Distillation with Webly Collected Images	Jul 21, 2023	Contrastive LearningData-free Knowledge Distillation	—Unverified
Diverse Knowledge Distillation for End-to-End Person Search	Dec 21, 2020	Human DetectionKnowledge Distillation	—Unverified
Divide and Conquer: Leveraging Intermediate Feature Representations for Quantized Training of Neural Networks	Jun 14, 2019	Knowledge DistillationQuantization	—Unverified
DLIP: Distilling Language-Image Pre-training	Aug 24, 2023	Image CaptioningImage-text Retrieval	—Unverified
DL-KDD: Dual-Light Knowledge Distillation for Action Recognition in the Dark	Jun 4, 2024	Action RecognitionKnowledge Distillation	—Unverified
DMKD: Improving Feature-based Knowledge Distillation for Object Detection Via Dual Masking Augmentation	Sep 6, 2023	Knowledge Distillationobject-detection	—Unverified
DNA 1.0 Technical Report	Jan 18, 2025	BelebeleGSM8K	—Unverified
DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models	Oct 4, 2024	document understandingKnowledge Distillation	—Unverified
Does Knowledge Distillation Matter for Large Language Model based Bundle Generation?	Apr 24, 2025	In-Context LearningKnowledge Distillation	—Unverified

Show:10 25 50

← PrevPage 64 of 85Next →

All datasets ImageNet CIFAR-100 COCO (Common Objects in Context)COCO 2017 val PASCAL VOC KITTI

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ScaleKD (T:BEiT-L S:ViT-B/14)	Top-1 accuracy %	86.43	—	Unverified
2	ScaleKD (T:Swin-L S:ViT-B/16)	Top-1 accuracy %	85.53	—	Unverified
3	ScaleKD (T:Swin-L S:ViT-S/16)	Top-1 accuracy %	83.93	—	Unverified
4	ScaleKD (T:Swin-L S:Swin-T)	Top-1 accuracy %	83.8	—	Unverified
5	KD++(T: regnety-16GF S:ViT-B)	Top-1 accuracy %	83.6	—	Unverified
6	VkD (T:RegNety 160 S:DeiT-S)	Top-1 accuracy %	82.9	—	Unverified
7	SpectralKD (T:Swin-S S:Swin-T)	Top-1 accuracy %	82.7	—	Unverified
8	ScaleKD (T:Swin-L S:ResNet-50)	Top-1 accuracy %	82.55	—	Unverified
9	DiffKD (T:Swin-L S: Swin-T)	Top-1 accuracy %	82.5	—	Unverified
10	DIST (T: Swin-L S: Swin-T)	Top-1 accuracy %	82.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SRD (T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	79.86	—	Unverified
2	shufflenet-v2(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	78.76	—	Unverified
3	MV-MR (T: CLIP/ViT-B-16 S: resnet50)	Top-1 Accuracy (%)	78.6	—	Unverified
4	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	78.28	—	Unverified
5	resnet8x4 (T: resnet32x4 S: resnet8x4 [modified])	Top-1 Accuracy (%)	78.08	—	Unverified
6	ReviewKD++(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	77.93	—	Unverified
7	ReviewKD++(T:resnet-32x4, S:shufflenet-v1)	Top-1 Accuracy (%)	77.68	—	Unverified
8	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	77.5	—	Unverified
9	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.68	—	Unverified
10	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.31	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	77.16	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	73.73	—	Unverified
3	ADLIK-Faster (T: Faster R-CNN vit-base S: Faster R-CNN deit-small)	box AP	47.6	—	Unverified
4	ADLIK-Mask (T: Mask R-CNN vit-base S: Mask R-CNN deit-small)	mask AP	42.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet50))	AP@0.5	61.8	—	Unverified
2	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet18))	AP@0.5	57.96	—	Unverified
3	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(mobilenet-v2))	AP@0.5	55.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	93.17	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	90.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TIE-KD (T: Adabins S: MobileNetV2)	RMSE	2.43	—	Unverified