Model Compression

Model Compression is an actively pursued area of research over the last few years with the goal of deploying state-of-the-art deep networks in low-power and resource limited devices without significant drop in accuracy. Parameter pruning, low-rank factorization and weight quantization are some of the proposed methods to compress the size of deep networks.

Source: KD-MRI: A knowledge distillation framework for image reconstruction and image restoration in MRI workflow

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1151–1200 of 1356 papers

Title	Date	Tasks	Status
Small Language Models: Architectures, Techniques, Evaluation, Problems and Future Adaptation	May 26, 2025	Model CompressionQuantization	—Unverified
Small Object Detection Based on Modified FSSD and Model Compression	Aug 24, 2021	Model Compressionobject-detection	—Unverified
Smart Environmental Monitoring of Marine Pollution using Edge AI	Apr 30, 2025	Edge-computingModel Compression	—Unverified
SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost Computation	May 7, 2020	Model CompressionQuantization	—Unverified
Smooth Model Compression without Fine-Tuning	May 30, 2025	modelModel Compression	—Unverified
CrAFT: Compression-Aware Fine-Tuning for Efficient Visual Task Adaptation	May 8, 2023	GPUModel Compression	—Unverified
Soft Labeling Affects Out-of-Distribution Detection of Deep Neural Networks	Jul 7, 2020	Model CompressionOut-of-Distribution Detection	—Unverified
Sometimes Painful but Certainly Promising: Feasibility and Trade-offs of Language Model Inference at the Edge	Mar 12, 2025	CPUGPU	—Unverified
SpaLLM: Unified Compressive Adaptation of Large Language Models with Sketching	Oct 8, 2024	Model CompressionNatural Language Understanding	—Unverified
Sparse Deep Learning for Time Series Data: Theory and Applications	Oct 5, 2023	Deep LearningModel Compression	—Unverified
AdaDeep: A Usage-Driven, Automated Deep Model Compression Framework for Enabling Ubiquitous Intelligent Mobiles	Jun 8, 2020	Model Compression	—Unverified
Sparse Unbalanced GAN Training with In-Time Over-Parameterization	Sep 29, 2021	Model Compression	—Unverified
Spatio-Temporal Pruning and Quantization for Low-latency Spiking Neural Networks	Apr 26, 2021	Model CompressionQuantization	—Unverified
Activation Sparsity Opportunities for Compressing General Large Language Models	Dec 13, 2024	Model Compression	—Unverified
Compressible Spectral Mixture Kernels with Sparse Dependency Structures for Gaussian Processes	Aug 1, 2018	Gaussian ProcessesModel Compression	—Unverified
Spectral Pruning: Compressing Deep Neural Networks via Spectral Analysis and its Generalization Error	Aug 26, 2018	Edge-computingLearning Theory	—Unverified
Comprehensive Study on Performance Evaluation and Optimization of Model Compression: Bridging Traditional Deep Learning and Large Language Models	Jul 22, 2024	Deep Learningimage-classification	—Unverified
Comprehensive Survey of Model Compression and Speed up for Vision Transformers	Apr 16, 2024	Computational EfficiencyEdge-computing	—Unverified
Speeding up Convolutional Neural Networks with Low Rank Expansions	May 15, 2014	CPUGPU	—Unverified
Compressed models are NOT miniature versions of large models	Jul 18, 2024	Adversarial AttackModel Compression	—Unverified
Speeding Up Image Classifiers with Little Companions	Jun 24, 2024	image-classificationImage Classification	—Unverified
USM-Lite: Quantization and Sparsity Aware Fine-tuning for Speech Recognition with Universal Speech Models	Dec 13, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Compressing Cross-Lingual Multi-Task Models at Qualtrics	Nov 29, 2022	ManagementModel Compression	—Unverified
Compressing Deep Convolutional Neural Networks by Stacking Low-dimensional Binary Convolution Filters	Oct 6, 2020	Model Compression	—Unverified
Compressing Deep Neural Networks via Layer Fusion	Jul 29, 2020	Exponential degradationLanguage Modelling	—Unverified
Compositionality Unlocks Deep Interpretable Models	Apr 3, 2025	Model CompressionTensor Networks	—Unverified
Compressing Large-Scale Transformer-Based Models: A Case Study on BERT	Feb 27, 2020	Model Compression	—Unverified
Compressing Low Precision Deep Neural Networks Using Sparsity-Induced Regularization in Ternary Networks	Sep 19, 2017	L2 RegularizationModel Compression	—Unverified
Compressing Pre-trained Language Models by Matrix Decomposition	Dec 1, 2020	Model Compression	—Unverified
Compressing Recurrent Neural Networks for FPGA-accelerated Implementation in Fluorescence Lifetime Imaging	Oct 1, 2024	Computational EfficiencyKnowledge Distillation	—Unverified
Compressing Recurrent Neural Networks Using Hierarchical Tucker Tensor Decomposition	May 9, 2020	Model CompressionTensor Decomposition	—Unverified
Spirit Distillation: A Model Compression Method with Multi-domain Knowledge Transfer	Apr 29, 2021	General KnowledgeKnowledge Distillation	—Unverified
Sponge Attacks on Sensing AI: Energy-Latency Vulnerabilities and Defense via Model Pruning	May 9, 2025	Model Compression	—Unverified
CompMarkGS: Robust Watermarking for Compressed 3D Gaussian Splatting	Mar 17, 2025	3DGS3D Reconstruction	—Unverified
Compression and Localization in Reinforcement Learning for ATARI Games	Apr 20, 2019	Atari GamesModel Compression	—Unverified
Activation Map Adaptation for Effective Knowledge Distillation	Oct 26, 2020	Knowledge DistillationModel Compression	—Unverified
Complexity-Driven CNN Compression for Resource-constrained Edge AI	Aug 26, 2022	Computational EfficiencyModel Compression	—Unverified
Compression for Better: A General and Stable Lossless Compression Framework	Dec 9, 2024	Computational EfficiencyModel Compression	—Unverified
Compression Laws for Large Language Models	Apr 6, 2025	Model Compression	—Unverified
Compression of Deep Neural Networks by combining pruning and low rank decomposition	Oct 20, 2018	Model Compression	—Unverified
Compression of Deep Neural Networks for Image Instance Retrieval	Jan 18, 2017	Image Instance RetrievalModel Compression	—Unverified
Compression of Generative Pre-trained Language Models via Quantization	Mar 21, 2022	Model CompressionQuantization	—Unverified
Compacting Deep Neural Networks for Internet of Things: Methods and Applications	Mar 20, 2021	DiversityKnowledge Distillation	—Unverified
Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM Inference with Transferable Prompt	May 17, 2023	GPUModel Compression	—Unverified
Compress then Serve: Serving Thousands of LoRA Adapters with Little Overhead	Jun 17, 2024	GPUModel Compression	—Unverified
Computation-efficient Deep Learning for Computer Vision: A Survey	Aug 27, 2023	Autonomous VehiclesDeep Learning	—Unverified
CompactifAI: Extreme Compression of Large Language Models using Quantum-Inspired Tensor Networks	Jan 25, 2024	Model CompressionQuantization	—Unverified
Activation Density based Mixed-Precision Quantization for Energy Efficient Neural Networks	Jan 12, 2021	Model CompressionQuantization	—Unverified
ConaCLIP: Exploring Distillation of Fully-Connected Knowledge Interaction Graph for Lightweight Text-Image Retrieval	May 28, 2023	Image RetrievalKnowledge Distillation	—Unverified
Conditional Automated Channel Pruning for Deep Neural Networks	Sep 21, 2020	Model Compression	—Unverified

Show:10 25 50

← PrevPage 24 of 28Next →

All datasets ImageNet QNLI

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ADLIK-MO-ResNet50+W4A4	Top-1	77.88	—	Unverified
2	ADLIK-MO-ResNet50+W3A4	Top-1	77.34	—	Unverified
3	ResNet-18 + 4bit-1dim model compression using DKM	Top-1	70.52	—	Unverified
4	MobileNet-v1 + 4bit-1dim model compression using DKM	Top-1	69.63	—	Unverified
5	ResNet-18 + 2bit-1dim model compression using DKM	Top-1	68.63	—	Unverified
6	MobileNet-v1 + 2bit-1dim model compression using DKM	Top-1	67.62	—	Unverified
7	ResNet-18 + 4bit-4dim model compression using DKM	Top-1	66.1	—	Unverified
8	ResNet-18 + 2bit-2dim model compression using DKM	Top-1	64.7	—	Unverified
9	MobileNet-v1 + 4bit-4dim model compression using DKM	Top-1	61.4	—	Unverified
10	ResNet-18 + 1bit-1dim model compression using DKM	Top-1	59.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MobileBERT + 2bit-1dim model compression using DKM	Accuracy	82.13	—	Unverified
2	MobileBERT + 1bit-1dim model compression using DKM	Accuracy	63.17	—	Unverified