Knowledge Distillation

Knowledge distillation is the process of transferring knowledge from a large model to a smaller one. While large models (such as very deep neural networks or ensembles of many models) have higher knowledge capacity than small models, this capacity might not be fully utilized.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2551–2600 of 4240 papers

Title	Date	Tasks	Status
Bidirectional Distillation: A Mixed-Play Framework for Multi-Agent Generalizable Behaviors	May 16, 2025	Knowledge DistillationMulti-agent Reinforcement Learning	—Unverified
Ground Reaction Force Estimation via Time-aware Knowledge Distillation	Jun 12, 2025	Knowledge Distillation	—Unverified
3D-Augmented Contrastive Knowledge Distillation for Image-based Object Pose Estimation	Jun 2, 2022	Contrastive LearningKnowledge Distillation	—Unverified
3D Denoisers are Good 2D Teachers: Molecular Pretraining via Denoising and Cross-Modal Distillation	Sep 8, 2023	DenoisingKnowledge Distillation	—Unverified
3D Face Alignment Through Fusion of Head Pose Information and Features	Aug 25, 2023	3D Face AlignmentFace Alignment	—Unverified
3D Point Cloud Pre-training with Knowledge Distillation from 2D Images	Dec 17, 2022	Concept AlignmentKnowledge Distillation	—Unverified
A baseline revisited: Pushing the limits of multi-segment models for context-aware translation	Oct 19, 2022	Knowledge DistillationTranslation	—Unverified
A Bayesian Optimization Framework for Neural Network Compression	Oct 1, 2019	Bayesian OptimizationKnowledge Distillation	—Unverified
ABC-KD: Attention-Based-Compression Knowledge Distillation for Deep Learning-Based Noise Suppression	May 26, 2023	Knowledge Distillation	—Unverified
ABKD: Graph Neural Network Compression with Attention-Based Knowledge Distillation	Oct 24, 2023	Drug DiscoveryFake News Detection	—Unverified
ACAM-KD: Adaptive and Cooperative Attention Masking for Knowledge Distillation	Mar 8, 2025	Autonomous Drivingfeature selection	—Unverified
Accelerating Diffusion Models with One-to-Many Knowledge Distillation	Oct 5, 2024	Image GenerationKnowledge Distillation	—Unverified
Accelerating Large Scale Knowledge Distillation via Dynamic Importance Sampling	Dec 3, 2018	Knowledge DistillationMachine Translation	—Unverified
Accelerating Molecular Graph Neural Networks via Knowledge Distillation	Jun 26, 2023	Data AugmentationKnowledge Distillation	—Unverified
Accelerating Transformer Decoding via a Hybrid of Self-attention and Recurrent Neural Network	Sep 5, 2019	DecoderKnowledge Distillation	—Unverified
Accurate and Structured Pruning for Efficient Automatic Speech Recognition	May 31, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Accurate Knowledge Distillation with n-best Reranking	May 20, 2023	Knowledge DistillationReranking	—Unverified
A Classifier-Free Incremental Learning Framework for Scalable Medical Image Segmentation	May 25, 2024	Contrastive LearningImage Segmentation	—Unverified
A Closer Look at Deep Learning Heuristics: Learning rate restarts, Warmup and Distillation	Oct 29, 2018	Dimensionality ReductionKnowledge Distillation	—Unverified
A Closer Look at Knowledge Distillation with Features, Logits, and Gradients	Mar 18, 2022	Incremental LearningKnowledge Distillation	—Unverified
A Closer Look at Rehearsal-Free Continual Learning	Mar 31, 2022	Continual LearningKnowledge Distillation	—Unverified
A Closer Look at Wav2Vec2 Embeddings for On-Device Single-Channel Speech Enhancement	Mar 3, 2024	Automatic Speech RecognitionKeyword Spotting	—Unverified
A Cohesive Distillation Architecture for Neural Language Models	Jan 12, 2023	Knowledge DistillationLanguage Modeling	—Unverified
A Comparative Analysis of Task-Agnostic Distillation Methods for Compressing Transformer Language Models	Oct 13, 2023	Knowledge Distillation	—Unverified
Supervised domain adaptation for building extraction from off-nadir aerial images	Nov 7, 2023	Domain AdaptationEarth Observation	—Unverified
A Comprehensive Overhaul of Distilling Unconditional GANs	Sep 29, 2021	Knowledge Distillation	—Unverified
A Comprehensive Review of Knowledge Distillation in Computer Vision	Apr 1, 2024	Deep LearningKnowledge Distillation	—Unverified
A Comprehensive Study of Class Incremental Learning Algorithms for Visual Tasks	Nov 3, 2020	class-incremental learningClass Incremental Learning	—Unverified
A Comprehensive Survey of Compression Algorithms for Language Models	Jan 27, 2024	Knowledge DistillationQuantization	—Unverified
A Comprehensive Survey on Knowledge Distillation of Diffusion Models	Apr 9, 2023	Knowledge DistillationSurvey	—Unverified
A Continual and Incremental Learning Approach for TinyML On-device Training Using Dataset Distillation and Model Size Adaption	Sep 11, 2024	Anomaly DetectionComputational Efficiency	—Unverified
A Contrastive Teacher-Student Framework for Novelty Detection under Style Shifts	Jan 28, 2025	Autonomous DrivingKnowledge Distillation	—Unverified
Acquiring Knowledge from Pre-trained Model to Neural Machine Translation	Dec 4, 2019	General KnowledgeKnowledge Distillation	—Unverified
A Cross-Domain Approach for Continuous Impression Recognition from Dyadic Audio-Visual-Physio Signals	Mar 25, 2022	Knowledge DistillationSpoken Dialogue Systems	—Unverified
Action Spotting and Precise Event Detection in Sports: Datasets, Methods, and Challenges	May 6, 2025	Action LocalizationAction Spotting	—Unverified
Activation Map Adaptation for Effective Knowledge Distillation	Oct 26, 2020	Knowledge DistillationModel Compression	—Unverified
Active Class Incremental Learning for Imbalanced Datasets	Aug 25, 2020	class-incremental learningClass Incremental Learning	—Unverified
Active Data Curation Effectively Distills Large-Scale Multimodal Models	Nov 27, 2024	DecoderImage Captioning	—Unverified
Active Exploration of Multimodal Complementarity for Few-Shot Action Recognition	Jan 1, 2023	Action RecognitionFew-Shot action recognition	—Unverified
Active Large Language Model-based Knowledge Distillation for Session-based Recommendation	Dec 15, 2024	Active LearningKnowledge Distillation	—Unverified
Active Learning for Lane Detection: A Knowledge Distillation Approach	Jan 1, 2021	2D Object DetectionActive Learning	—Unverified
ActivityCLIP: Enhancing Group Activity Recognition by Mining Complementary Information from Text to Supplement Image Modality	Jul 29, 2024	Activity RecognitionGroup Activity Recognition	—Unverified
Ada-DQA: Adaptive Diverse Quality-aware Feature Acquisition for Video Quality Assessment	Aug 1, 2023	DiversityKnowledge Distillation	—Unverified
AdaKD: Dynamic Knowledge Distillation of ASR models using Adaptive Loss Weighting	May 11, 2024	Knowledge DistillationModel Compression	—Unverified
Adam: Dense Retrieval Distillation with Adaptive Dark Examples	Dec 20, 2022	Knowledge DistillationRetrieval	—Unverified
Adapt-and-Distill: Developing Small, Fast and Effective Pretrained Language Models for Domains	Jun 25, 2021	Knowledge Distillation	—Unverified
Adapter-based Selective Knowledge Distillation for Federated Multi-domain Meeting Summarization	Aug 7, 2023	Federated LearningKnowledge Distillation	—Unverified
AdapterDistillation: Non-Destructive Task Composition with Knowledge Distillation	Dec 26, 2023	Knowledge DistillationRetrieval	—Unverified
Adapting Models to Signal Degradation using Distillation	Apr 1, 2016	Domain AdaptationKnowledge Distillation	—Unverified
Adapting OC20-trained EquiformerV2 Models for High-Entropy Materials	Mar 14, 2024	Knowledge Distillation	—Unverified

Show:10 25 50

← PrevPage 52 of 85Next →

All datasets ImageNet CIFAR-100 COCO (Common Objects in Context)COCO 2017 val PASCAL VOC KITTI

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ScaleKD (T:BEiT-L S:ViT-B/14)	Top-1 accuracy %	86.43	—	Unverified
2	ScaleKD (T:Swin-L S:ViT-B/16)	Top-1 accuracy %	85.53	—	Unverified
3	ScaleKD (T:Swin-L S:ViT-S/16)	Top-1 accuracy %	83.93	—	Unverified
4	ScaleKD (T:Swin-L S:Swin-T)	Top-1 accuracy %	83.8	—	Unverified
5	KD++(T: regnety-16GF S:ViT-B)	Top-1 accuracy %	83.6	—	Unverified
6	VkD (T:RegNety 160 S:DeiT-S)	Top-1 accuracy %	82.9	—	Unverified
7	SpectralKD (T:Swin-S S:Swin-T)	Top-1 accuracy %	82.7	—	Unverified
8	ScaleKD (T:Swin-L S:ResNet-50)	Top-1 accuracy %	82.55	—	Unverified
9	DiffKD (T:Swin-L S: Swin-T)	Top-1 accuracy %	82.5	—	Unverified
10	DIST (T: Swin-L S: Swin-T)	Top-1 accuracy %	82.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SRD (T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	79.86	—	Unverified
2	shufflenet-v2(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	78.76	—	Unverified
3	MV-MR (T: CLIP/ViT-B-16 S: resnet50)	Top-1 Accuracy (%)	78.6	—	Unverified
4	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	78.28	—	Unverified
5	resnet8x4 (T: resnet32x4 S: resnet8x4 [modified])	Top-1 Accuracy (%)	78.08	—	Unverified
6	ReviewKD++(T:resnet-32x4, S:shufflenet-v2)	Top-1 Accuracy (%)	77.93	—	Unverified
7	ReviewKD++(T:resnet-32x4, S:shufflenet-v1)	Top-1 Accuracy (%)	77.68	—	Unverified
8	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	77.5	—	Unverified
9	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.68	—	Unverified
10	resnet8x4 (T: resnet32x4 S: resnet8x4)	Top-1 Accuracy (%)	76.31	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	77.16	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	73.73	—	Unverified
3	ADLIK-Faster (T: Faster R-CNN vit-base S: Faster R-CNN deit-small)	box AP	47.6	—	Unverified
4	ADLIK-Mask (T: Mask R-CNN vit-base S: Mask R-CNN deit-small)	mask AP	42.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet50))	AP@0.5	61.8	—	Unverified
2	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(resnet18))	AP@0.5	57.96	—	Unverified
3	ReviewKD++(T: faster rcnn(resnet101), S:faster rcnn(mobilenet-v2))	AP@0.5	55.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSHFM (T: ResNet101 S: ResNet50)	mAP	93.17	—	Unverified
2	LSHFM (T: ResNet101 S: MobileNetV2)	mAP	90.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TIE-KD (T: Adabins S: MobileNetV2)	RMSE	2.43	—	Unverified