Knowledge Distillation

Knowledge distillation is the process of transferring knowledge from a large model to a smaller one. While large models (such as very deep neural networks or ensembles of many models) have higher knowledge capacity than small models, this capacity might not be fully utilized.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1201–1250 of 4240 papers

Title	Date	Tasks	Status
D3T-GAN: Data-Dependent Domain Transfer GANs for Few-shot Image Generation	May 12, 2022	Image GenerationKnowledge Distillation	—Unverified
Aligning Teacher with Student Preferences for Tailored Training Data Generation	Jun 27, 2024	In-Context LearningKnowledge Distillation	—Unverified
D^3ETR: Decoder Distillation for Detection Transformer	Nov 17, 2022	DecoderKnowledge Distillation	—Unverified
BEExformer: A Fast Inferencing Transformer Architecture via Binarization with Multiple Early Exits	Dec 6, 2024	BinarizationKnowledge Distillation	—Unverified
Estimating Human Poses Across Datasets: A Unified Skeleton and Multi-Teacher Distillation Approach	May 30, 2024	Activity RecognitionKnowledge Distillation	—Unverified
Adaptive Explicit Knowledge Transfer for Knowledge Distillation	Sep 3, 2024	Knowledge DistillationTransfer Learning	—Unverified
CustomKD: Customizing Large Vision Foundation for Edge Model Improvement via Knowledge Distillation	Mar 23, 2025	Domain AdaptationKnowledge Distillation	—Unverified
VRM: Knowledge Distillation via Virtual Relation Matching	Feb 28, 2025	Knowledge DistillationRelation	—Unverified
Evaluation-oriented Knowledge Distillation for Deep Face Recognition	Jun 6, 2022	Face RecognitionKnowledge Distillation	—Unverified
Aligning in a Compact Space: Contrastive Knowledge Distillation between Heterogeneous Architectures	May 28, 2024	Contrastive LearningKnowledge Distillation	—Unverified
BD-KD: Balancing the Divergences for Online Knowledge Distillation	Dec 25, 2022	Knowledge DistillationModel Compression	—Unverified
Essence Knowledge Distillation for Speech Recognition	Jun 26, 2019	Knowledge Distillationspeech-recognition	—Unverified
CULL-MT: Compression Using Language and Layer pruning for Machine Translation	Nov 10, 2024	Knowledge DistillationMachine Translation	—Unverified
CTC Blank Triggered Dynamic Layer-Skipping for Efficient CTC-based Speech Recognition	Jan 4, 2024	Knowledge Distillationspeech-recognition	—Unverified
Bayesian-Optimized One-Step Diffusion Model with Knowledge Distillation for Real-Time 3D Human Motion Prediction	Sep 19, 2024	Bayesian OptimizationHuman motion prediction	—Unverified
Aligned Weight Regularizers for Pruning Pretrained Neural Networks	Nov 16, 2021	Knowledge DistillationLanguage Modeling	—Unverified
Accurate and Structured Pruning for Efficient Automatic Speech Recognition	May 31, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Estimating and Maximizing Mutual Information for Knowledge Distillation	Oct 29, 2021	Knowledge Distillation	—Unverified
Ever Evolving Evaluator (EV3): Towards Flexible and Reliable Meta-Optimization for Knowledge Distillation	Oct 29, 2023	DiversityEvolutionary Algorithms	—Unverified
Examining the Mapping Functions of Denoising Autoencoders in Singing Voice Separation	Apr 12, 2019	DecoderDenoising	—Unverified
Explaining Sequence-Level Knowledge Distillation as Data-Augmentation for Neural Machine Translation	Dec 6, 2019	Data AugmentationKnowledge Distillation	—Unverified
Crowd Counting with Online Knowledge Learning	Mar 18, 2023	Crowd CountingEdge-computing	—Unverified
BAPO: Base-Anchored Preference Optimization for Overcoming Forgetting in Large Language Models Personalization	Jun 30, 2024	Continual LearningGeneral Knowledge	—Unverified
Cross-Task Knowledge Distillation in Multi-Task Recommendation	Feb 20, 2022	Knowledge DistillationMulti-Task Learning	—Unverified
BanglaEmbed: Efficient Sentence Embedding Models for a Low-Resource Language Using Cross-Lingual Distillation Techniques	Nov 22, 2024	Hate Speech DetectionKnowledge Distillation	—Unverified
Error Exponent in Agnostic PAC Learning	May 1, 2024	Binary ClassificationKnowledge Distillation	—Unverified
Canine EEG Helps Human: Cross-Species and Cross-Modality Epileptic Seizure Detection via Multi-Space Alignment	Dec 18, 2024	Brain Computer InterfaceDiagnostic	—Unverified
Cross-Resolution Face Recognition via Prior-Aided Face Hallucination and Residual Knowledge Distillation	May 26, 2019	Face HallucinationFace Recognition	—Unverified
AlignCap: Aligning Speech Emotion Captioning to Human Preferences	Oct 24, 2024	Knowledge DistillationLanguage Modeling	—Unverified
Crossmodal Knowledge Distillation with WordNet-Relaxed Text Embeddings for Robust Image Classification	Mar 31, 2025	image-classificationImage Classification	—Unverified
A predictive machine learning force field framework for liquid electrolyte development	Apr 10, 2024	Knowledge Distillation	—Unverified
Adaptive Deep Iris Feature Extractor at Arbitrary Resolutions	Jul 11, 2024	Iris RecognitionKnowledge Distillation	—Unverified
ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self On-the-fly Distillation for Dense Passage Retrieval	May 18, 2022	Knowledge DistillationOpen-Domain Question Answering	—Unverified
ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining	May 26, 2025	Knowledge DistillationLanguage Modeling	—Unverified
Cross-modal knowledge distillation for action recognition	Oct 10, 2019	Action RecognitionKnowledge Distillation	—Unverified
Balancing Cost and Benefit with Tied-Multi Transformers	Feb 20, 2020	DecoderKnowledge Distillation	—Unverified
Balanced softmax cross-entropy for incremental learning with and without memory	Mar 23, 2021	class-incremental learningClass Incremental Learning	—Unverified
AligNART: Non-autoregressive Neural Machine Translation by Jointly Learning to Estimate Alignment and Translate	Sep 14, 2021	DecoderKnowledge Distillation	—Unverified
ATLAS: Autoformalizing Theorems through Lifting, Augmentation, and Synthesis of Data	Feb 8, 2025	Knowledge Distillation	—Unverified
Cross Modal Distillation for Flood Extent Mapping	Feb 16, 2023	Knowledge Distillation	—Unverified
Cross-modal Contrastive Distillation for Instructional Activity Anticipation	Jan 18, 2022	Knowledge Distillation	—Unverified
Balance Divergence for Knowledge Distillation	Jan 14, 2025	image-classificationImage Classification	—Unverified
Cross-Lingual NER for Financial Transaction Data in Low-Resource Languages	Jul 16, 2023	Cross-Lingual NERKnowledge Distillation	—Unverified
Cross-lingual Machine Reading Comprehension with Language Branch Knowledge Distillation	Oct 27, 2020	Knowledge DistillationMachine Reading Comprehension	—Unverified
Baidu Neural Machine Translation Systems for WMT19	Aug 1, 2019	Data AugmentationDomain Adaptation	—Unverified
Cross-lingual Knowledge Distillation via Flow-based Voice Conversion for Robust Polyglot Text-To-Speech	Sep 15, 2023	Knowledge DistillationSpeech Synthesis	—Unverified
Cross-Lingual Knowledge Distillation for Answer Sentence Selection in Low-Resource Languages	May 25, 2023	Knowledge DistillationMachine Translation	—Unverified
Knowledge Distillation for Human Action Anticipation	Apr 9, 2019	Action AnticipationAction Recognition	—Unverified
Adaptive Beam Search to Enhance On-device Abstractive Summarization	Dec 22, 2021	Abstractive Text SummarizationKnowledge Distillation	—Unverified
Cross-Level Multi-Instance Distillation for Self-Supervised Fine-Grained Visual Categorization	Jan 16, 2024	Fine-Grained Visual CategorizationKnowledge Distillation	—Unverified

Show:10 25 50

← PrevPage 25 of 85Next →

All datasets ImageNet CIFAR-100 COCO (Common Objects in Context)COCO 2017 val PASCAL VOC KITTI

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ScaleKD (T:BEiT-L S:ViT-B/14)	Top-1 accuracy %	86.43	—	Unverified
2	ScaleKD (T:Swin-L S:ViT-B/16)	Top-1 accuracy %	85.53	—	Unverified
3	ScaleKD (T:Swin-L S:ViT-S/16)	Top-1 accuracy %	83.93	—	Unverified
4	ScaleKD (T:Swin-L S:Swin-T)	Top-1 accuracy %	83.8	—	Unverified
5	KD++(T: regnety-16GF S:ViT-B)	Top-1 accuracy %	83.6	—	Unverified
6	VkD (T:RegNety 160 S:DeiT-S)	Top-1 accuracy %	82.9	—	Unverified
7	SpectralKD (T:Swin-S S:Swin-T)	Top-1 accuracy %	82.7	—	Unverified
8	ScaleKD (T:Swin-L S:ResNet-50)	Top-1 accuracy %	82.55	—	Unverified
9	DiffKD (T:Swin-L S: Swin-T)	Top-1 accuracy %	82.5	—	Unverified
10	DIST (T: Swin-L S: Swin-T)	Top-1 accuracy %	82.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SRD (T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	79.86	—	Unverified
2	shufflenet-v2(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	78.76	—	Unverified
3	MV-MR (T: CLIP/ViT-B-16 S: resnet50)	Top-1 Accuracy (%)	78.6	—	Unverified
4	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	78.28	—	Unverified
5	resnet8x4 (T: resnet32x4 S: resnet8x4 [modified])	Top-1 Accuracy (%)	78.08	—	Unverified
6	ReviewKD++(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	77.93	—	Unverified
7	ReviewKD++(T:resnet-32x4, S:shufflenet-v1)	Top-1 Accuracy (%)	77.68	—	Unverified
8	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	77.5	—	Unverified
9	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.68	—	Unverified
10	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.31	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	77.16	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	73.73	—	Unverified
3	ADLIK-Faster (T: Faster R-CNN vit-base S: Faster R-CNN deit-small)	box AP	47.6	—	Unverified
4	ADLIK-Mask (T: Mask R-CNN vit-base S: Mask R-CNN deit-small)	mask AP	42.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet50))	AP@0.5	61.8	—	Unverified
2	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet18))	AP@0.5	57.96	—	Unverified
3	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(mobilenet-v2))	AP@0.5	55.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	93.17	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	90.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TIE-KD (T: Adabins S: MobileNetV2)	RMSE	2.43	—	Unverified