Knowledge Distillation

Knowledge distillation is the process of transferring knowledge from a large model to a smaller one. While large models (such as very deep neural networks or ensembles of many models) have higher knowledge capacity than small models, this capacity might not be fully utilized.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1751–1800 of 4240 papers

Title	Date	Tasks	Status
AfroXLMR-Comet: Multilingual Knowledge Distillation with Attention Matching for Low-Resource languages	Feb 25, 2025	Knowledge DistillationLanguage Modeling	—Unverified
Improving Cone-Beam CT Image Quality with Knowledge Distillation-Enhanced Diffusion Model in Imbalanced Data Settings	Sep 19, 2024	Computed Tomography (CT)Image Generation	—Unverified
Improving Conversational Abilities of Quantized Large Language Models via Direct Preference Alignment	Jul 3, 2024	ChatbotComputational Efficiency	—Unverified
Empowering Dual-Encoder with Query Generator for Cross-Lingual Dense Retrieval	Mar 27, 2023	Knowledge DistillationRetrieval	—Unverified
Empirical Evaluation of Knowledge Distillation from Transformers to Subquadratic Language Models	Apr 19, 2025	Knowledge DistillationState Space Models	—Unverified
GOLD: Generalized Knowledge Distillation via Out-of-Distribution-Guided Language Data Generation	Mar 28, 2024	Data-free Knowledge DistillationKnowledge Distillation	—Unverified
Data-Free Knowledge Transfer: A Survey	Dec 31, 2021	Data-free Knowledge DistillationDomain Adaptation	—Unverified
Complete-to-Partial 4D Distillation for Self-Supervised Point Cloud Sequence Representation Learning	Dec 10, 2022	Knowledge DistillationRepresentation Learning	—Unverified
Knowledge distillation for optimization of quantized deep neural networks	Sep 4, 2019	Knowledge Distillation	—Unverified
Emo Pillars: Knowledge Distillation to Support Fine-Grained Context-Aware and Context-Less Emotion Classification	Apr 23, 2025	Emotion ClassificationGPU	—Unverified
A Framework for Double-Blind Federated Adaptation of Foundation Models	Feb 3, 2025	Federated Learningimage-classification	—Unverified
Embracing the Dark Knowledge: Domain Generalization Using Regularized Knowledge Distillation	Jul 6, 2021	Domain Generalizationimage-classification	—Unverified
EmbedDistill: A Geometric Knowledge Distillation for Information Retrieval	Jan 27, 2023	Information RetrievalKnowledge Distillation	—Unverified
Completely Heterogeneous Federated Learning	Oct 28, 2022	Data-free Knowledge DistillationFederated Learning	—Unverified
Data Techniques For Online End-to-end Speech Recognition	Jan 24, 2020	Data AugmentationDomain Adaptation	—Unverified
Gradient Reweighting: Towards Imbalanced Class-Incremental Learning	Feb 28, 2024	class-incremental learningClass Incremental Learning	—Unverified
Embedding Compression for Teacher-to-Student Knowledge Transfer	Feb 9, 2024	Knowledge DistillationTransfer Learning	—Unverified
Graph-Adaptive Pruning for Efficient Inference of Convolutional Neural Networks	Nov 21, 2018	Knowledge DistillationModel Compression	—Unverified
Asymmetric Image Retrieval with Cross Model Compatible Ensembles	Mar 30, 2023	DiversityFace Recognition	—Unverified
ABKD: Graph Neural Network Compression with Attention-Based Knowledge Distillation	Oct 24, 2023	Drug DiscoveryFake News Detection	—Unverified
Beyond the Tip of Efficiency: Uncovering the Submerged Threats of Jailbreak Attacks in Small Language Models	Feb 27, 2025	Knowledge DistillationModel Compression	—Unverified
KNIFE: Distilling Reasoning Knowledge From Free-Text Rationales	Dec 19, 2022	Knowledge DistillationLanguage Modelling	—Unverified
Embedded Knowledge Distillation in Depth-Level Dynamic Neural Network	Mar 1, 2021	Dynamic neural networksKnowledge Distillation	—Unverified
ELiTe: Efficient Image-to-LiDAR Knowledge Transfer for Semantic Segmentation	May 7, 2024	Knowledge DistillationLIDAR Semantic Segmentation	—Unverified
Comparison of Soft and Hard Target RNN-T Distillation for Large-scale ASR	Oct 11, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ADPS: Asymmetric Distillation Post-Segmentation for Image Anomaly Detection	Oct 19, 2022	Anomaly DetectionAnomaly Localization	—Unverified
VizECGNet: Visual ECG Image Network for Cardiovascular Diseases Classification with Multi-Modal Training and Knowledge Distillation	Aug 6, 2024	ECG ClassificationKnowledge Distillation	—Unverified
ELAICHI: Enhancing Low-resource TTS by Addressing Infrequent and Low-frequency Character Bigrams	Oct 23, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ELAD: Explanation-Guided Large Language Models Active Distillation	Feb 20, 2024	Active LearningKnowledge Distillation	—Unverified
EI-MTD:Moving Target Defense for Edge Intelligence against Adversarial Attacks	Sep 19, 2020	Knowledge DistillationScheduling	—Unverified
AKE-GNN: Effective Graph Learning with Adaptive Knowledge Exchange	Jun 10, 2021	ClassificationGraph Classification	—Unverified
Dealing with Missing Modalities in the Visual Question Answer-Difference Prediction Task through Knowledge Distillation	Apr 13, 2021	Knowledge DistillationTriplet	—Unverified
IOR: Inversed Objects Replay for Incremental Object Detection	Jun 7, 2024	Knowledge DistillationObject	—Unverified
Comparing Fisher Information Regularization with Distillation for DNN Quantization	Oct 19, 2020	Knowledge DistillationQuantization	—Unverified
Ground-V: Teaching VLMs to Ground Complex Instructions in Pixels	May 20, 2025	Instruction FollowingKnowledge Distillation	—Unverified
Group channel pruning and spatial attention distilling for object detection	Jun 2, 2023	Knowledge DistillationModel Compression	—Unverified
Improving Autoregressive NMT with Non-Autoregressive Model	Jul 1, 2020	Decoderde-en	—Unverified
Grouped Knowledge Distillation for Deep Face Recognition	Apr 10, 2023	Face RecognitionKnowledge Distillation	—Unverified
Improving CLIP Robustness with Knowledge Distillation and Self-Training	Sep 19, 2023	Knowledge Distillation	—Unverified
Group-Mix SAM: Lightweight Solution for Industrial Assembly Line Applications	Mar 15, 2024	Knowledge Distillation	—Unverified
Improving Defensive Distillation using Teacher Assistant	May 14, 2023	Face RecognitionKnowledge Distillation	—Unverified
Improving Mathematical Reasoning Capabilities of Small Language Models via Feedback-Driven Distillation	Nov 22, 2024	Knowledge DistillationMathematical Reasoning	—Unverified
ESGN: Efficient Stereo Geometry Network for Fast 3D Object Detection	Nov 28, 2021	3D Object DetectionKnowledge Distillation	—Unverified
Active Learning for Lane Detection: A Knowledge Distillation Approach	Jan 1, 2021	2D Object DetectionActive Learning	—Unverified
Asymmetric Decision-Making in Online Knowledge Distillation:Unifying Consensus and Divergence	Mar 9, 2025	Decision MakingKnowledge Distillation	—Unverified
Improved training of binary networks for human pose estimation and image recognition	Apr 11, 2019	BinarizationClassification with Binary Neural Network	—Unverified
Guiding CTC Posterior Spike Timings for Improved Posterior Fusion and Knowledge Distillation	Apr 17, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Decision Boundary-aware Knowledge Consolidation Generates Better Instance-Incremental Learner	Jun 5, 2024	class-incremental learningClass Incremental Learning	—Unverified
Guiding Teacher Forcing with Seer Forcing for Neural Machine Translation	Jun 12, 2021	DecoderKnowledge Distillation	—Unverified
EfficientViT-SAM: Accelerated Segment Anything Model Without Accuracy Loss	Feb 7, 2024	DecoderGPU	—Unverified

Show:10 25 50

← PrevPage 36 of 85Next →

All datasets ImageNet CIFAR-100 COCO (Common Objects in Context)COCO 2017 val PASCAL VOC KITTI

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ScaleKD (T:BEiT-L S:ViT-B/14)	Top-1 accuracy %	86.43	—	Unverified
2	ScaleKD (T:Swin-L S:ViT-B/16)	Top-1 accuracy %	85.53	—	Unverified
3	ScaleKD (T:Swin-L S:ViT-S/16)	Top-1 accuracy %	83.93	—	Unverified
4	ScaleKD (T:Swin-L S:Swin-T)	Top-1 accuracy %	83.8	—	Unverified
5	KD++(T: regnety-16GF S:ViT-B)	Top-1 accuracy %	83.6	—	Unverified
6	VkD (T:RegNety 160 S:DeiT-S)	Top-1 accuracy %	82.9	—	Unverified
7	SpectralKD (T:Swin-S S:Swin-T)	Top-1 accuracy %	82.7	—	Unverified
8	ScaleKD (T:Swin-L S:ResNet-50)	Top-1 accuracy %	82.55	—	Unverified
9	DiffKD (T:Swin-L S: Swin-T)	Top-1 accuracy %	82.5	—	Unverified
10	DIST (T: Swin-L S: Swin-T)	Top-1 accuracy %	82.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SRD (T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	79.86	—	Unverified
2	shufflenet-v2(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	78.76	—	Unverified
3	MV-MR (T: CLIP/ViT-B-16 S: resnet50)	Top-1 Accuracy (%)	78.6	—	Unverified
4	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	78.28	—	Unverified
5	resnet8x4 (T: resnet32x4 S: resnet8x4 [modified])	Top-1 Accuracy (%)	78.08	—	Unverified
6	ReviewKD++(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	77.93	—	Unverified
7	ReviewKD++(T:resnet-32x4, S:shufflenet-v1)	Top-1 Accuracy (%)	77.68	—	Unverified
8	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	77.5	—	Unverified
9	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.68	—	Unverified
10	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.31	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	77.16	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	73.73	—	Unverified
3	ADLIK-Faster (T: Faster R-CNN vit-base S: Faster R-CNN deit-small)	box AP	47.6	—	Unverified
4	ADLIK-Mask (T: Mask R-CNN vit-base S: Mask R-CNN deit-small)	mask AP	42.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet50))	AP@0.5	61.8	—	Unverified
2	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet18))	AP@0.5	57.96	—	Unverified
3	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(mobilenet-v2))	AP@0.5	55.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	93.17	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	90.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TIE-KD (T: Adabins S: MobileNetV2)	RMSE	2.43	—	Unverified