Knowledge Distillation

Knowledge distillation is the process of transferring knowledge from a large model to a smaller one. While large models (such as very deep neural networks or ensembles of many models) have higher knowledge capacity than small models, this capacity might not be fully utilized.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1401–1450 of 4240 papers

Title	Date	Tasks	Status
AgentDistill: Training-Free Agent Distillation with Generalizable MCP Boxes	Jun 17, 2025	Knowledge DistillationTransfer Learning	—Unverified
FedQUIT: On-Device Federated Unlearning via a Quasi-Competent Virtual Teacher	Aug 14, 2024	Federated LearningKnowledge Distillation	—Unverified
Attention-Guided Answer Distillation for Machine Reading Comprehension	Aug 23, 2018	Knowledge DistillationMachine Reading Comprehension	—Unverified
FedRAD: Federated Robust Adaptive Distillation	Dec 2, 2021	Federated LearningKnowledge Distillation	—Unverified
Ensemble Knowledge Distillation for CTR Prediction	Nov 8, 2020	Click-Through Rate PredictionKnowledge Distillation	—Unverified
A Generative Framework for Personalized Learning and Estimation: Theory, Algorithms, and Privacy	Jul 5, 2022	Federated LearningKnowledge Distillation	—Unverified
Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic	Feb 22, 2024	Formal LogicKnowledge Distillation	—Unverified
Conditional Autoregressors are Interpretable Classifiers	Mar 31, 2022	Classificationimage-classification	—Unverified
FedSDD: Scalable and Diversity-enhanced Distillation for Model Aggregation in Federated Learning	Dec 28, 2023	DiversityFederated Learning	—Unverified
FedSPLIT: One-Shot Federated Recommendation System Based on Non-negative Joint Matrix Factorization and Knowledge Distillation	May 4, 2022	Collaborative FilteringFederated Learning	—Unverified
FGAD: Self-boosted Knowledge Distillation for An Effective Federated Graph Anomaly Detection Framework	Feb 20, 2024	Anomaly DetectionFederated Learning	—Unverified
Ensemble Distillation for Neural Machine Translation	Feb 6, 2017	Knowledge DistillationMachine Translation	—Unverified
Conditional Generative Data-free Knowledge Distillation	Dec 31, 2021	Conditional Image GenerationData-free Knowledge Distillation	—Unverified
Enhancing SLM via ChatGPT and Dataset Augmentation	Sep 19, 2024	Knowledge DistillationNatural Language Inference	—Unverified
Enhancing Single-Slice Segmentation with 3D-to-2D Unpaired Scan Distillation	Jun 18, 2024	Computed Tomography (CT)Knowledge Distillation	—Unverified
Ensemble knowledge distillation of self-supervised speech models	Feb 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Condensed Sample-Guided Model Inversion for Knowledge Distillation	Aug 25, 2024	Knowledge Distillationmodel	—Unverified
Enhancing Semi-supervised Learning with Zero-shot Pseudolabels	Feb 18, 2025	Knowledge Distillation	—Unverified
Confidence Based Bidirectional Global Context Aware Training Framework for Neural Machine Translation	Feb 28, 2022	DecoderKnowledge Distillation	—Unverified
ConceptDistil: Model-Agnostic Distillation of Concept Explanations	May 7, 2022	Explainable ModelsKnowledge Distillation	—Unverified
Ensembling of Distilled Models from Multi-task Teachers for Constrained Resource Language Pairs	Nov 26, 2021	Knowledge DistillationTranslation	—Unverified
EnSiam: Self-Supervised Learning With Ensemble Representations	May 22, 2023	Contrastive LearningKnowledge Distillation	—Unverified
Entire-Space Variational Information Exploitation for Post-Click Conversion Rate Prediction	Dec 17, 2024	Knowledge DistillationRecommendation Systems	—Unverified
EPIK: Eliminating multi-model Pipelines with Knowledge-distillation	Nov 27, 2022	Knowledge DistillationTransliteration	—Unverified
EPSD: Early Pruning with Self-Distillation for Efficient Model Compression	Jan 31, 2024	Knowledge DistillationModel Compression	—Unverified
Learning Effective Representations for Retrieval Using Self-Distillation with Adaptive Relevance Margins	Jul 31, 2024	Knowledge DistillationLanguage Modeling	—Unverified
Federated Learning with Privacy-Preserving Ensemble Attention Distillation	Oct 16, 2022	Federated Learningimage-classification	—Unverified
ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self On-the-fly Distillation for Dense Passage Retrieval	May 18, 2022	Knowledge DistillationOpen-Domain Question Answering	—Unverified
Conformer with dual-mode chunked attention for joint online and offline ASR	Jun 22, 2022	Knowledge Distillation	—Unverified
Error Exponent in Agnostic PAC Learning	May 1, 2024	Binary ClassificationKnowledge Distillation	—Unverified
Enhancing Scalability in Recommender Systems through Lottery Ticket Hypothesis and Knowledge Distillation-based Neural Network Pruning	Jan 19, 2024	GPUKnowledge Distillation	—Unverified
Enhancing Romanian Offensive Language Detection through Knowledge Distillation, Multi-Task Learning, and Data Augmentation	Sep 30, 2024	Data AugmentationKnowledge Distillation	—Unverified
Enhancing Review Comprehension with Domain-Specific Commonsense	Apr 6, 2020	Aspect ExtractionKnowledge Distillation	—Unverified
ESPnet-ST IWSLT 2021 Offline Speech Translation System	Jul 1, 2021	DecoderKnowledge Distillation	—Unverified
Enhancing Once-For-All: A Study on Parallel Blocks, Skip Connections and Early Exits	Feb 3, 2023	AllKnowledge Distillation	—Unverified
ConaCLIP: Exploring Distillation of Fully-Connected Knowledge Interaction Graph for Lightweight Text-Image Retrieval	May 28, 2023	Image RetrievalKnowledge Distillation	—Unverified
A General Multiple Data Augmentation Based Framework for Training Deep Neural Networks	May 29, 2022	Data Augmentationimage-classification	—Unverified
Evaluation-oriented Knowledge Distillation for Deep Face Recognition	Jun 6, 2022	Face RecognitionKnowledge Distillation	—Unverified
Federated One-Shot Learning with Data Privacy and Objective-Hiding	Apr 29, 2025	Federated LearningInformation Retrieval	—Unverified
A Transformer-in-Transformer Network Utilizing Knowledge Distillation for Image Recognition	Feb 24, 2025	image-classificationImage Classification	—Unverified
Federated Learning for Data and Model Heterogeneity in Medical Imaging	Jul 31, 2023	Federated LearningKnowledge Distillation	—Unverified
Enhancing Modality-Agnostic Representations via Meta-Learning for Brain Tumor Segmentation	Feb 8, 2023	Brain Tumor SegmentationImage Generation	—Unverified
Enhancing Mapless Trajectory Prediction through Knowledge Distillation	Jun 25, 2023	Autonomous DrivingKnowledge Distillation	—Unverified
Compression of end-to-end non-autoregressive image-to-speech system for low-resourced devices	Nov 30, 2023	Knowledge Distillation	—Unverified
Federated Learning on Non-iid Data via Local and Global Distillation	Jun 26, 2023	Federated LearningKnowledge Distillation	—Unverified
EVOKE: Emotion Enabled Virtual Avatar Mapping Using Optimized Knowledge Distillation	Jan 13, 2024	Emotion RecognitionKnowledge Distillation	—Unverified
Compression of Deep Learning Models for Text: A Survey	Aug 12, 2020	Deep LearningInformation Retrieval	—Unverified
Generalized Supervised Contrastive Learning	Jun 1, 2022	Contrastive LearningKnowledge Distillation	—Unverified
Compression of Acoustic Event Detection Models With Quantized Distillation	Jul 1, 2019	Event DetectionKnowledge Distillation	—Unverified
Federated Knowledge Transfer Fine-tuning Large Server Model with Resource-Constrained IoT Clients	Jul 7, 2024	Federated LearningKnowledge Distillation	—Unverified

Show:10 25 50

← PrevPage 29 of 85Next →

All datasets ImageNet CIFAR-100 COCO (Common Objects in Context)COCO 2017 val PASCAL VOC KITTI

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ScaleKD (T:BEiT-L S:ViT-B/14)	Top-1 accuracy %	86.43	—	Unverified
2	ScaleKD (T:Swin-L S:ViT-B/16)	Top-1 accuracy %	85.53	—	Unverified
3	ScaleKD (T:Swin-L S:ViT-S/16)	Top-1 accuracy %	83.93	—	Unverified
4	ScaleKD (T:Swin-L S:Swin-T)	Top-1 accuracy %	83.8	—	Unverified
5	KD++(T: regnety-16GF S:ViT-B)	Top-1 accuracy %	83.6	—	Unverified
6	VkD (T:RegNety 160 S:DeiT-S)	Top-1 accuracy %	82.9	—	Unverified
7	SpectralKD (T:Swin-S S:Swin-T)	Top-1 accuracy %	82.7	—	Unverified
8	ScaleKD (T:Swin-L S:ResNet-50)	Top-1 accuracy %	82.55	—	Unverified
9	DiffKD (T:Swin-L S: Swin-T)	Top-1 accuracy %	82.5	—	Unverified
10	DIST (T: Swin-L S: Swin-T)	Top-1 accuracy %	82.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SRD (T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	79.86	—	Unverified
2	shufflenet-v2(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	78.76	—	Unverified
3	MV-MR (T: CLIP/ViT-B-16 S: resnet50)	Top-1 Accuracy (%)	78.6	—	Unverified
4	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	78.28	—	Unverified
5	resnet8x4 (T: resnet32x4 S: resnet8x4 [modified])	Top-1 Accuracy (%)	78.08	—	Unverified
6	ReviewKD++(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	77.93	—	Unverified
7	ReviewKD++(T:resnet-32x4, S:shufflenet-v1)	Top-1 Accuracy (%)	77.68	—	Unverified
8	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	77.5	—	Unverified
9	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.68	—	Unverified
10	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.31	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	77.16	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	73.73	—	Unverified
3	ADLIK-Faster (T: Faster R-CNN vit-base S: Faster R-CNN deit-small)	box AP	47.6	—	Unverified
4	ADLIK-Mask (T: Mask R-CNN vit-base S: Mask R-CNN deit-small)	mask AP	42.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet50))	AP@0.5	61.8	—	Unverified
2	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet18))	AP@0.5	57.96	—	Unverified
3	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(mobilenet-v2))	AP@0.5	55.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	93.17	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	90.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TIE-KD (T: Adabins S: MobileNetV2)	RMSE	2.43	—	Unverified