Knowledge Distillation

Knowledge distillation is the process of transferring knowledge from a large model to a smaller one. While large models (such as very deep neural networks or ensembles of many models) have higher knowledge capacity than small models, this capacity might not be fully utilized.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 4240 papers

Title	Date	Tasks	Status	Hype
Attention Distillation: self-supervised vision transformer students need more guidance	Oct 3, 2022	Knowledge DistillationSelf-Supervised Learning	CodeCode Available	1
AdaDistill: Adaptive Knowledge Distillation for Deep Face Recognition	Jul 1, 2024	Face RecognitionKnowledge Distillation	CodeCode Available	1
CrossMatch: Enhance Semi-Supervised Medical Image Segmentation with Perturbation Strategies and Knowledge Distillation	May 1, 2024	Image SegmentationKnowledge Distillation	CodeCode Available	1
A Sentence Speaks a Thousand Images: Domain Generalization through Distilling CLIP with Language Guidance	Sep 21, 2023	Domain GeneralizationKnowledge Distillation	CodeCode Available	1
Distilled Split Deep Neural Networks for Edge-Assisted Real-Time Systems	Oct 1, 2019	Edge-computingImage Classification	CodeCode Available	1
Distilling a Powerful Student Model via Online Knowledge Distillation	Mar 26, 2021	Knowledge Distillation	CodeCode Available	1
Attention Weighted Local Descriptors	Apr 19, 2023	3D ReconstructionHomography Estimation	CodeCode Available	1
Aggretriever: A Simple Approach to Aggregate Textual Representations for Robust Dense Passage Retrieval	Jul 31, 2022	Knowledge DistillationLanguage Modeling	CodeCode Available	1
Bi-directional Weakly Supervised Knowledge Distillation for Whole Slide Image Classification	Oct 7, 2022	Classificationimage-classification	CodeCode Available	1
Domain Consistency Representation Learning for Lifelong Person Re-Identification	Sep 30, 2024	AttributeKnowledge Distillation	CodeCode Available	1
AGKD-BML: Defense Against Adversarial Attack by Attention Guided Knowledge Distillation and Bi-directional Metric Learning	Aug 13, 2021	Adversarial AttackAdversarial Robustness	CodeCode Available	1
Audio Embeddings as Teachers for Music Classification	Jun 30, 2023	ClassificationInformation Retrieval	CodeCode Available	1
Distilling Holistic Knowledge with Graph Neural Networks	Aug 12, 2021	Knowledge Distillation	CodeCode Available	1
Distilling Image Classifiers in Object Detectors	Jun 9, 2021	Knowledge DistillationObject	CodeCode Available	1
Audio-Visual Representation Learning via Knowledge Distillation from Speech Foundation Models	Feb 9, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	1
Agree to Disagree: Adaptive Ensemble Knowledge Distillation in Gradient Space	Dec 1, 2020	DiversityKnowledge Distillation	CodeCode Available	1
Augmentation-Free Dense Contrastive Knowledge Distillation for Efficient Semantic Segmentation	Dec 7, 2023	Contrastive LearningData Augmentation	CodeCode Available	1
A semi-supervised Teacher-Student framework for surgical tool detection and localization	Aug 21, 2022	Knowledge DistillationPseudo Label	CodeCode Available	1
AICSD: Adaptive Inter-Class Similarity Distillation for Semantic Segmentation	Aug 8, 2023	Knowledge DistillationSemantic Segmentation	CodeCode Available	1
Distilling Knowledge via Knowledge Review	Apr 19, 2021	Instance SegmentationKnowledge Distillation	CodeCode Available	1
Contrastive Model Inversion for Data-Free Knowledge Distillation	May 18, 2021	Contrastive LearningData-free Knowledge Distillation	CodeCode Available	1
Distilling Meta Knowledge on Heterogeneous Graph for Illicit Drug Trafficker Detection on Social Media	Dec 1, 2021	Knowledge DistillationMarketing	CodeCode Available	1
Distilling Object Detectors with Feature Richness	Nov 1, 2021	Knowledge DistillationModel Compression	CodeCode Available	1
Distilling Out-of-Distribution Robustness from Vision-Language Foundation Models	Nov 2, 2023	Data AugmentationDomain Generalization	CodeCode Available	1
BERT-of-Theseus: Compressing BERT by Progressive Module Replacing	Feb 7, 2020	Knowledge DistillationModel Compression	CodeCode Available	1
Action knowledge for video captioning with graph neural networks	Mar 16, 2023	Action RecognitionGraph Neural Network	CodeCode Available	1
AIM 2024 Challenge on UHD Blind Photo Quality Assessment	Sep 24, 2024	4kComputational Efficiency	CodeCode Available	1
Distill on the Go: Online knowledge distillation in self-supervised learning	Apr 20, 2021	Knowledge DistillationSelf-Supervised Learning	CodeCode Available	1
Contrastive Distillation on Intermediate Representations for Language Model Compression	Sep 29, 2020	Knowledge DistillationLanguage Modeling	CodeCode Available	1
Autoencoders as Cross-Modal Teachers: Can Pretrained 2D Image Transformers Help 3D Representation Learning?	Dec 16, 2022	3D Point Cloud ClassificationFew-Shot 3D Point Cloud Classification	CodeCode Available	1
AutoGAN-Distiller: Searching to Compress Generative Adversarial Networks	Jun 15, 2020	AutoMLKnowledge Distillation	CodeCode Available	1
DistilVPR: Cross-Modal Knowledge Distillation for Visual Place Recognition	Dec 17, 2023	Knowledge DistillationVisual Place Recognition	CodeCode Available	1
Contrastive Representation Distillation	Oct 23, 2019	Contrastive LearningKnowledge Distillation	CodeCode Available	1
Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image Retrieval	Oct 19, 2022	Cross-Modal RetrievalImage Retrieval	CodeCode Available	1
Block-Wisely Supervised Neural Architecture Search With Knowledge Distillation	Jun 1, 2020	Knowledge DistillationNeural Architecture Search	CodeCode Available	1
Divide to Adapt: Mitigating Confirmation Bias for Domain Adaptation of Black-Box Predictors	May 28, 2022	Domain AdaptationKnowledge Distillation	CodeCode Available	1
Data-Free Class-Incremental Hand Gesture Recognition	Jan 1, 2023	class-incremental learningClass Incremental Learning	CodeCode Available	1
DnS: Distill-and-Select for Efficient and Accurate Video Indexing and Retrieval	Jun 24, 2021	Computational EfficiencyKnowledge Distillation	CodeCode Available	1
Black-Box Attacks on Sequential Recommenders via Data-Free Model Extraction	Sep 1, 2021	Data PoisoningKnowledge Distillation	CodeCode Available	1
Does Knowledge Distillation Really Work?	Jun 10, 2021	Knowledge Distillation	CodeCode Available	1
CascadeBERT: Accelerating Inference of Pre-trained Language Models via Calibrated Complete Models Cascade	Dec 29, 2020	Knowledge DistillationModel Selection	CodeCode Available	1
DPM-OT: A New Diffusion Probabilistic Model Based on Optimal Transport	Jul 21, 2023	DenoisingKnowledge Distillation	CodeCode Available	1
Avatar Knowledge Distillation: Self-ensemble Teacher Paradigm with Uncertainty	May 4, 2023	Knowledge Distillationobject-detection	CodeCode Available	1
A Knowledge Distillation Framework For Enhancing Ear-EEG Based Sleep Staging With Scalp-EEG Data	Oct 27, 2022	Domain AdaptationEEG	CodeCode Available	1
Dual Relation Knowledge Distillation for Object Detection	Feb 11, 2023	Knowledge DistillationModel Compression	CodeCode Available	1
Continual Collaborative Distillation for Recommender System	May 29, 2024	Knowledge DistillationRecommendation Systems	CodeCode Available	1
Continual All-in-One Adverse Weather Removal with Knowledge Replay on a Unified Network Structure	Mar 12, 2024	AllContinual Learning	CodeCode Available	1
Continual evaluation for lifelong learning: Identifying the stability gap	May 26, 2022	Continual LearningIncremental Learning	CodeCode Available	1
Are Intermediate Layers and Labels Really Necessary? A General Language Model Distillation Method	Jun 11, 2023	Knowledge DistillationLanguage Modeling	CodeCode Available	1
Context-Aware Image Inpainting with Learned Semantic Priors	Jun 14, 2021	Image InpaintingKnowledge Distillation	CodeCode Available	1

Show:10 25 50

← PrevPage 8 of 85Next →

All datasets ImageNet CIFAR-100 COCO (Common Objects in Context)COCO 2017 val PASCAL VOC KITTI

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ScaleKD (T:BEiT-L S:ViT-B/14)	Top-1 accuracy %	86.43	—	Unverified
2	ScaleKD (T:Swin-L S:ViT-B/16)	Top-1 accuracy %	85.53	—	Unverified
3	ScaleKD (T:Swin-L S:ViT-S/16)	Top-1 accuracy %	83.93	—	Unverified
4	ScaleKD (T:Swin-L S:Swin-T)	Top-1 accuracy %	83.8	—	Unverified
5	KD++(T: regnety-16GF S:ViT-B)	Top-1 accuracy %	83.6	—	Unverified
6	VkD (T:RegNety 160 S:DeiT-S)	Top-1 accuracy %	82.9	—	Unverified
7	SpectralKD (T:Swin-S S:Swin-T)	Top-1 accuracy %	82.7	—	Unverified
8	ScaleKD (T:Swin-L S:ResNet-50)	Top-1 accuracy %	82.55	—	Unverified
9	DiffKD (T:Swin-L S: Swin-T)	Top-1 accuracy %	82.5	—	Unverified
10	DIST (T: Swin-L S: Swin-T)	Top-1 accuracy %	82.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SRD (T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	79.86	—	Unverified
2	shufflenet-v2(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	78.76	—	Unverified
3	MV-MR (T: CLIP/ViT-B-16 S: resnet50)	Top-1 Accuracy (%)	78.6	—	Unverified
4	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	78.28	—	Unverified
5	resnet8x4 (T: resnet32x4 S: resnet8x4 [modified])	Top-1 Accuracy (%)	78.08	—	Unverified
6	ReviewKD++(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	77.93	—	Unverified
7	ReviewKD++(T:resnet-32x4, S:shufflenet-v1)	Top-1 Accuracy (%)	77.68	—	Unverified
8	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	77.5	—	Unverified
9	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.68	—	Unverified
10	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.31	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	77.16	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	73.73	—	Unverified
3	ADLIK-Faster (T: Faster R-CNN vit-base S: Faster R-CNN deit-small)	box AP	47.6	—	Unverified
4	ADLIK-Mask (T: Mask R-CNN vit-base S: Mask R-CNN deit-small)	mask AP	42.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet50))	AP@0.5	61.8	—	Unverified
2	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet18))	AP@0.5	57.96	—	Unverified
3	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(mobilenet-v2))	AP@0.5	55.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	93.17	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	90.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TIE-KD (T: Adabins S: MobileNetV2)	RMSE	2.43	—	Unverified