Knowledge Distillation

Knowledge distillation is the process of transferring knowledge from a large model to a smaller one. While large models (such as very deep neural networks or ensembles of many models) have higher knowledge capacity than small models, this capacity might not be fully utilized.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1751–1800 of 4240 papers

Title	Date	Tasks	Status
An Efficient Method of Training Small Models for Regression Problems with Knowledge Distillation	Feb 28, 2020	Knowledge DistillationMemorization	—Unverified
DiffusionTalker: Personalization and Acceleration for Speech-Driven 3D Face Diffuser	Nov 28, 2023	3D Face AnimationContrastive Learning	—Unverified
Towards Complementary Knowledge Distillation for Efficient Dense Image Prediction	Jan 24, 2024	Implicit RelationsInstance Segmentation	—Unverified
Diffusion-Augmented Coreset Expansion for Scalable Dataset Distillation	Dec 5, 2024	Bilevel OptimizationComputational Efficiency	—Unverified
Improving Neural Ranking via Lossless Knowledge Distillation	Sep 30, 2021	Knowledge DistillationLearning-To-Rank	—Unverified
Diffusion Glancing Transformer for Parallel Sequence to Sequence Learning	Dec 20, 2022	Knowledge DistillationMachine Translation	—Unverified
Differentiable Feature Aggregation Search for Knowledge Distillation	Aug 2, 2020	Knowledge DistillationModel Compression	—Unverified
DiDOTS: Knowledge Distillation from Large-Language-Models for Dementia Obfuscation in Transcribed Speech	Oct 5, 2024	HallucinationKnowledge Distillation	—Unverified
An Efficient Federated Distillation Learning System for Multi-task Time Series Classification	Dec 30, 2021	Knowledge DistillationTime Series	—Unverified
Add a SideNet to your MainNet	Jul 14, 2020	General ClassificationKnowledge Distillation	—Unverified
Bootstrapping Chest CT Image Understanding by Distilling Knowledge from X-ray Expert Models	Apr 7, 2024	Contrastive LearningDiagnostic	—Unverified
DFM: Dialogue Foundation Model for Universal Large-Scale Dialogue-Oriented Task Learning	May 25, 2022	Dialogue GenerationDiversity	—Unverified
Bootstrapped Representation Learning for Skeleton-Based Action Recognition	Feb 4, 2022	Action RecognitionData Augmentation	—Unverified
An Efficient Detection and Control System for Underwater Docking using Machine Learning and Realistic Simulation: A Comprehensive Approach	Nov 2, 2023	Generative Adversarial NetworkImage-to-Image Translation	—Unverified
Dialect Identification through Adversarial Learning and Knowledge Distillation on Romanian BERT	Apr 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
DiagrammaticLearning: A Graphical Language for Compositional Training Regimes	Jan 2, 2025	Knowledge DistillationMulti-Task Learning	—Unverified
BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping	Jun 8, 2023	DenoisingKnowledge Distillation	—Unverified
DFRD: Data-Free Robustness Distillation for Heterogeneous Federated Learning	Sep 24, 2023	Data-free Knowledge DistillationDiversity	—Unverified
Boost Vision Transformer with GPU-Friendly Sparsity and Quantization	May 18, 2023	BenchmarkingGPU	—Unverified
An Efficient Active Learning Pipeline for Legal Text Classification	Nov 15, 2022	Active LearningClassification	—Unverified
DFMSD: Dual Feature Masking Stage-wise Knowledge Distillation for Object Detection	Jul 18, 2024	Knowledge DistillationObject	—Unverified
DeViT: Decomposing Vision Transformers for Collaborative Inference in Edge Devices	Sep 10, 2023	Collaborative InferenceGPU	—Unverified
Device-Directed Speech Detection: Regularization via Distillation for Weakly-Supervised Models	Mar 30, 2022	Knowledge Distillation	—Unverified
Boosting Self-Supervision for Single-View Scene Completion via Knowledge Distillation	Apr 11, 2024	Depth EstimationDepth Prediction	—Unverified
Developing Multi-Task Recommendations with Long-Term Rewards via Policy Distilled Reinforcement Learning	Jan 27, 2020	Deep Reinforcement LearningKnowledge Distillation	—Unverified
DETRDistill: A Universal Knowledge Distillation Framework for DETR-families	Nov 17, 2022	Knowledge Distillationobject-detection	—Unverified
Detecting Optimism in Tweets using Knowledge Distillation and Linguistic Analysis of Optimism	Jun 1, 2022	Hate Speech DetectionKnowledge Distillation	—Unverified
An Effective Deep Network for Head Pose Estimation without Keypoints	Oct 25, 2022	Gaze EstimationHead Pose Estimation	—Unverified
Analyzing the Importance of Blank for CTC-Based Knowledge Distillation	Jun 2, 2025	Automatic Speech RecognitionKnowledge Distillation	—Unverified
A Cohesive Distillation Architecture for Neural Language Models	Jan 12, 2023	Knowledge DistillationLanguage Modeling	—Unverified
DistillGrasp: Integrating Features Correlation with Knowledge Distillation for Depth Completion of Transparent Objects	Aug 1, 2024	Depth CompletionFeature Correlation	—Unverified
Designing Parameter and Compute Efficient Diffusion Transformers using Distillation	Feb 20, 2025	Knowledge DistillationNVIDIA Jetson Orin Nano	—Unverified
Designing an Improved Deep Learning-based Model for COVID-19 Recognition in Chest X-ray Images: A Knowledge Distillation Approach	Jan 6, 2023	Knowledge Distillation	—Unverified
Designing and Training of Lightweight Neural Networks on Edge Devices using Early Halting in Knowledge Distillation	Sep 30, 2022	Knowledge Distillation	—Unverified
Boosting Lossless Speculative Decoding via Feature Sampling and Partial Alignment Distillation	Aug 28, 2024	Knowledge DistillationLanguage Modelling	—Unverified
DεpS: Delayed ε-Shrinking for Faster Once-For-All Training	Jul 8, 2024	AllGPU	—Unverified
Deploying a BERT-based Query-Title Relevance Classifier in a Production System: a View from the Trenches	Aug 23, 2021	CPUData Augmentation	—Unverified
Boosting Graph Neural Networks via Adaptive Knowledge Distillation	Oct 12, 2022	Graph ClassificationGraph Mining	—Unverified
Analyzing Knowledge Distillation in Neural Machine Translation	Oct 1, 2018	Knowledge DistillationMachine Translation	—Unverified
Densely Distilling Cumulative Knowledge for Continual Learning	May 16, 2024	AllContinual Learning	—Unverified
Boosting Contrastive Learning with Relation Knowledge Distillation	Dec 8, 2021	Contrastive LearningKnowledge Distillation	—Unverified
Denoising Mutual Knowledge Distillation in Bi-Directional Multiple Instance Learning	May 17, 2025	Denoisingimage-classification	—Unverified
BoostingBERT:Integrating Multi-Class Boosting into BERT for NLP Tasks	Sep 13, 2020	Ensemble LearningKnowledge Distillation	—Unverified
Analyzing Compression Techniques for Computer Vision	May 14, 2023	Knowledge DistillationQuantization	—Unverified
Demystifying Catastrophic Forgetting in Two-Stage Incremental Object Detector	Feb 8, 2025	Incremental LearningKnowledge Distillation	—Unverified
Delving Deep into Semantic Relation Distillation	Mar 27, 2025	Knowledge DistillationModel Compression	—Unverified
Boosting Accuracy and Robustness of Student Models via Adaptive Adversarial Distillation	Jan 1, 2023	Adversarial RobustnessKnowledge Distillation	—Unverified
BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation	Feb 6, 2025	In-Context LearningKnowledge Distillation	—Unverified
An Active Learning Framework for Inclusive Generation by Large Language Models	Oct 17, 2024	Active LearningClustering	—Unverified
Adaptive Regularization of Labels	Aug 15, 2019	Data AugmentationKnowledge Distillation	—Unverified

Show:10 25 50

← PrevPage 36 of 85Next →

All datasets ImageNet CIFAR-100 COCO (Common Objects in Context)COCO 2017 val PASCAL VOC KITTI

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ScaleKD (T:BEiT-L S:ViT-B/14)	Top-1 accuracy %	86.43	—	Unverified
2	ScaleKD (T:Swin-L S:ViT-B/16)	Top-1 accuracy %	85.53	—	Unverified
3	ScaleKD (T:Swin-L S:ViT-S/16)	Top-1 accuracy %	83.93	—	Unverified
4	ScaleKD (T:Swin-L S:Swin-T)	Top-1 accuracy %	83.8	—	Unverified
5	KD++(T: regnety-16GF S:ViT-B)	Top-1 accuracy %	83.6	—	Unverified
6	VkD (T:RegNety 160 S:DeiT-S)	Top-1 accuracy %	82.9	—	Unverified
7	SpectralKD (T:Swin-S S:Swin-T)	Top-1 accuracy %	82.7	—	Unverified
8	ScaleKD (T:Swin-L S:ResNet-50)	Top-1 accuracy %	82.55	—	Unverified
9	DiffKD (T:Swin-L S: Swin-T)	Top-1 accuracy %	82.5	—	Unverified
10	DIST (T: Swin-L S: Swin-T)	Top-1 accuracy %	82.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SRD (T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	79.86	—	Unverified
2	shufflenet-v2(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	78.76	—	Unverified
3	MV-MR (T: CLIP/ViT-B-16 S: resnet50)	Top-1 Accuracy (%)	78.6	—	Unverified
4	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	78.28	—	Unverified
5	resnet8x4 (T: resnet32x4 S: resnet8x4 [modified])	Top-1 Accuracy (%)	78.08	—	Unverified
6	ReviewKD++(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	77.93	—	Unverified
7	ReviewKD++(T:resnet-32x4, S:shufflenet-v1)	Top-1 Accuracy (%)	77.68	—	Unverified
8	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	77.5	—	Unverified
9	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.68	—	Unverified
10	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.31	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	77.16	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	73.73	—	Unverified
3	ADLIK-Faster (T: Faster R-CNN vit-base S: Faster R-CNN deit-small)	box AP	47.6	—	Unverified
4	ADLIK-Mask (T: Mask R-CNN vit-base S: Mask R-CNN deit-small)	mask AP	42.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet50))	AP@0.5	61.8	—	Unverified
2	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet18))	AP@0.5	57.96	—	Unverified
3	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(mobilenet-v2))	AP@0.5	55.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	93.17	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	90.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TIE-KD (T: Adabins S: MobileNetV2)	RMSE	2.43	—	Unverified