Knowledge Distillation

Knowledge distillation is the process of transferring knowledge from a large model to a smaller one. While large models (such as very deep neural networks or ensembles of many models) have higher knowledge capacity than small models, this capacity might not be fully utilized.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3551–3600 of 4240 papers

Title	Date	Tasks	Status
GOLD: Generalized Knowledge Distillation via Out-of-Distribution-Guided Language Data Generation	Mar 28, 2024	Data-free Knowledge DistillationKnowledge Distillation	—Unverified
GOVERN: Gradient Orientation Vote Ensemble for Multi-Teacher Reinforced Distillation	May 6, 2024	Knowledge DistillationQuestion Answering	—Unverified
Gradient Adversarial Training of Neural Networks	Jun 21, 2018	BIG-bench Machine LearningBinary Classification	—Unverified
Gradient-Guided Knowledge Distillation for Object Detectors	Mar 7, 2023	Knowledge DistillationObject	—Unverified
Gradient Reweighting: Towards Imbalanced Class-Incremental Learning	Feb 28, 2024	class-incremental learningClass Incremental Learning	—Unverified
Granite Embedding Models	Feb 27, 2025	Information RetrievalKnowledge Distillation	—Unverified
Graph-Adaptive Pruning for Efficient Inference of Convolutional Neural Networks	Nov 21, 2018	Knowledge DistillationModel Compression	—Unverified
Graph-Based Cross-Domain Knowledge Distillation for Cross-Dataset Text-to-Image Person Retrieval	Jan 25, 2025	Domain AdaptationKnowledge Distillation	—Unverified
Graph Representation Learning via Multi-task Knowledge Distillation	Nov 11, 2019	Graph Representation LearningKnowledge Distillation	—Unverified
AKE-GNN: Effective Graph Learning with Adaptive Knowledge Exchange	Jun 10, 2021	ClassificationGraph Classification	—Unverified
GripRank: Bridging the Gap between Retrieval and Generation via the Generative Knowledge Improved Passage Ranking	May 29, 2023	Answer GenerationDialogue Generation	—Unverified
Ground-V: Teaching VLMs to Ground Complex Instructions in Pixels	May 20, 2025	Instruction FollowingKnowledge Distillation	—Unverified
Group channel pruning and spatial attention distilling for object detection	Jun 2, 2023	Knowledge DistillationModel Compression	—Unverified
Group Distributionally Robust Knowledge Distillation	Nov 1, 2023	Knowledge Distillation	—Unverified
Grouped Knowledge Distillation for Deep Face Recognition	Apr 10, 2023	Face RecognitionKnowledge Distillation	—Unverified
Group-Mix SAM: Lightweight Solution for Industrial Assembly Line Applications	Mar 15, 2024	Knowledge Distillation	—Unverified
Growing Deep Neural Network Considering with Similarity between Neurons	Aug 23, 2024	Decision MakingKnowledge Distillation	—Unverified
GTCOM Neural Machine Translation Systems for WMT19	Aug 1, 2019	Knowledge DistillationLanguage Modeling	—Unverified
Guided Deep Metric Learning	Jun 4, 2022	Few-Shot LearningKnowledge Distillation	—Unverified
Guiding CTC Posterior Spike Timings for Improved Posterior Fusion and Knowledge Distillation	Apr 17, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Guiding Teacher Forcing with Seer Forcing for Neural Machine Translation	Jun 12, 2021	DecoderKnowledge Distillation	—Unverified
GVP: Generative Volumetric Primitives	Mar 31, 2023	Image GenerationKnowledge Distillation	—Unverified
Handling Long-tailed Feature Distribution in AdderNets	Dec 1, 2021	Knowledge Distillation	—Unverified
Hands-on Guidance for Distilling Object Detectors	Mar 26, 2021	Knowledge DistillationObject	—Unverified
HanjaBridge: Resolving Semantic Ambiguity in Korean LLMs via Hanja-Augmented Pre-Training	Jul 15, 2025	Cross-Lingual TransferKnowledge Distillation	—Unverified
Hard Gate Knowledge Distillation -- Leverage Calibration for Robust and Reliable Language Model	Oct 22, 2022	Knowledge DistillationLanguage Modeling	—Unverified
HARD: Hard Augmentations for Robust Distillation	May 24, 2023	Data AugmentationDomain Generalization	—Unverified
Harmonizing knowledge Transfer in Neural Network with Unified Distillation	Sep 27, 2024	Knowledge DistillationTransfer Learning	—Unverified
Harnessing Increased Client Participation with Cohort-Parallel Federated Learning	May 24, 2024	Federated Learningimage-classification	—Unverified
Spectral Maps for Learning on Subgraphs	May 30, 2022	Graph LearningKnowledge Distillation	—Unverified
hdl2v: A Code Translation Dataset for Enhanced LLM Verilog Generation	Jun 5, 2025	Code GenerationCode Translation	—Unverified
Headache to Overstock? Promoting Long-tail Items through Debiased Product Bundling	Nov 28, 2024	Knowledge DistillationNavigate	—Unverified
Head-Tail-Aware KL Divergence in Knowledge Distillation for Spiking Neural Networks	Apr 29, 2025	Knowledge DistillationTransfer Learning	—Unverified
Hearing Lips: Improving Lip Reading by Distilling Speech Recognizers	Nov 26, 2019	Knowledge DistillationLipreading	—Unverified
HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer Compression	Nov 30, 2022	Efficient ExplorationKnowledge Distillation	—Unverified
HeteFedRec: Federated Recommender Systems with Model Heterogeneity	Jul 24, 2023	Knowledge Distillationmodel	—Unverified
Heterogeneity-aware Personalized Federated Learning via Adaptive Dual-Agent Reinforcement Learning	Jan 28, 2025	Federated LearningKnowledge Distillation	—Unverified
Heterogeneous-Branch Collaborative Learning for Dialogue Generation	Mar 21, 2023	AttributeDialogue Generation	—Unverified
Heterogeneous Continual Learning	Jun 14, 2023	Continual LearningKnowledge Distillation	—Unverified
Heterogeneous Federated Knowledge Graph Embedding Learning and Unlearning	Feb 4, 2023	Federated LearningGraph Embedding	—Unverified
Heterogeneous Federated Learning Using Knowledge Codistillation	Oct 4, 2023	Federated Learningimage-classification	—Unverified
Heterogeneous Generative Knowledge Distillation with Masked Image Modeling	Sep 18, 2023	image-classificationImage Classification	—Unverified
HFedCKD: Toward Robust Heterogeneous Federated Learning via Data-free Knowledge Distillation and Two-way Contrast	Mar 9, 2025	Data-free Knowledge DistillationFederated Learning	—Unverified
Hierarchical Knowledge Distillation for Dialogue Sequence Labeling	Nov 22, 2021	Knowledge DistillationScene Segmentation	—Unverified
Hierarchical Knowledge Distillation on Text Graph for Data-limited Attribute Inference	Jan 10, 2024	AttributeFew-Shot Learning	—Unverified
Hierarchical Selective Classification	May 19, 2024	ClassificationKnowledge Distillation	—Unverified
Hierarchical Transformer-based Large-Context End-to-end ASR with Large-Context Knowledge Distillation	Feb 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
High-dimensional Analysis of Knowledge Distillation: Weak-to-Strong Generalization and Scaling Laws	Oct 24, 2024	Knowledge Distillationregression	—Unverified
High-Fidelity Pseudo-label Generation by Large Language Models for Training Robust Radiology Report Classifiers	May 3, 2025	DiagnosticKnowledge Distillation	—Unverified
Highly Constrained Coded Aperture Imaging Systems Design Via a Knowledge Distillation Approach	Jun 25, 2024	Image ReconstructionKnowledge Distillation	—Unverified

Show:10 25 50

← PrevPage 72 of 85Next →

All datasets ImageNet CIFAR-100 COCO (Common Objects in Context)COCO 2017 val PASCAL VOC KITTI

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ScaleKD (T:BEiT-L S:ViT-B/14)	Top-1 accuracy %	86.43	—	Unverified
2	ScaleKD (T:Swin-L S:ViT-B/16)	Top-1 accuracy %	85.53	—	Unverified
3	ScaleKD (T:Swin-L S:ViT-S/16)	Top-1 accuracy %	83.93	—	Unverified
4	ScaleKD (T:Swin-L S:Swin-T)	Top-1 accuracy %	83.8	—	Unverified
5	KD++(T: regnety-16GF S:ViT-B)	Top-1 accuracy %	83.6	—	Unverified
6	VkD (T:RegNety 160 S:DeiT-S)	Top-1 accuracy %	82.9	—	Unverified
7	SpectralKD (T:Swin-S S:Swin-T)	Top-1 accuracy %	82.7	—	Unverified
8	ScaleKD (T:Swin-L S:ResNet-50)	Top-1 accuracy %	82.55	—	Unverified
9	DiffKD (T:Swin-L S: Swin-T)	Top-1 accuracy %	82.5	—	Unverified
10	DIST (T: Swin-L S: Swin-T)	Top-1 accuracy %	82.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SRD (T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	79.86	—	Unverified
2	shufflenet-v2(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	78.76	—	Unverified
3	MV-MR (T: CLIP/ViT-B-16 S: resnet50)	Top-1 Accuracy (%)	78.6	—	Unverified
4	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	78.28	—	Unverified
5	resnet8x4 (T: resnet32x4 S: resnet8x4 [modified])	Top-1 Accuracy (%)	78.08	—	Unverified
6	ReviewKD++(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	77.93	—	Unverified
7	ReviewKD++(T:resnet-32x4, S:shufflenet-v1)	Top-1 Accuracy (%)	77.68	—	Unverified
8	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	77.5	—	Unverified
9	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.68	—	Unverified
10	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.31	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	77.16	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	73.73	—	Unverified
3	ADLIK-Faster (T: Faster R-CNN vit-base S: Faster R-CNN deit-small)	box AP	47.6	—	Unverified
4	ADLIK-Mask (T: Mask R-CNN vit-base S: Mask R-CNN deit-small)	mask AP	42.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet50))	AP@0.5	61.8	—	Unverified
2	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet18))	AP@0.5	57.96	—	Unverified
3	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(mobilenet-v2))	AP@0.5	55.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	93.17	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	90.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TIE-KD (T: Adabins S: MobileNetV2)	RMSE	2.43	—	Unverified