Quantization

Quantization is a promising technique to reduce the computation cost of neural network training, which can replace high-cost floating-point numbers (e.g., float32) with low-cost fixed-point numbers (e.g., int8/int16).

Source: Adaptive Precision Training: Quantify Back Propagation in Neural Networks with Fixed-point Numbers

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–675 of 4925 papers

Title	Date	Tasks	Status	Hype	Score
Designing Large Foundation Models for Efficient Training and Inference: A Survey	Sep 3, 2024	Knowledge DistillationModel Compression	CodeCode Available	1	5
ActNN: Reducing Training Memory Footprint via 2-Bit Activation Compressed Training	Apr 29, 2021	Quantization	CodeCode Available	1	5
BinaryDM: Accurate Weight Binarization for Efficient Diffusion Models	Apr 8, 2024	BinarizationQuantization	CodeCode Available	1	5
Binary Latent Diffusion	Apr 10, 2023	Image GenerationQuantization	CodeCode Available	1	5
Learning Discrete Representations via Constrained Clustering for Effective and Efficient Dense Retrieval	Oct 12, 2021	ClusteringConstrained Clustering	CodeCode Available	1	5
Compression with Bayesian Implicit Neural Representations	May 30, 2023	Audio CompressionQuantization	CodeCode Available	1	5
Learnable Lookup Table for Neural Network Quantization	Jan 1, 2022	Computational Efficiencyimage-classification	CodeCode Available	1	5
Learned Step Size Quantization	Feb 21, 2019	Model CompressionQuantization	CodeCode Available	1	5
COMQ: A Backpropagation-Free Algorithm for Post-Training Quantization	Mar 11, 2024	Quantization	CodeCode Available	1	5
DiTAS: Quantizing Diffusion Transformers via Enhanced Activation Smoothing	Sep 12, 2024	Image GenerationQuantization	CodeCode Available	1	5
Learning Architectures for Binary Networks	Feb 17, 2020	Quantization	CodeCode Available	1	5
Diverse Sample Generation: Pushing the Limit of Generative Data-free Quantization	Sep 1, 2021	Data Free Quantizationimage-classification	CodeCode Available	1	5
Learning from Students: Applying t-Distributions to Explore Accurate and Efficient Formats for LLMs	May 6, 2024	Quantization	CodeCode Available	1	5
Compressing LLMs: The Truth is Rarely Pure and Never Simple	Oct 2, 2023	QuantizationRetrieval	CodeCode Available	1	5
Hybrid Inverted Index Is a Robust Accelerator for Dense Retrieval	Oct 11, 2022	Knowledge DistillationQuantization	CodeCode Available	1	5
DNN+NeuroSim V2.0: An End-to-End Benchmarking Framework for Compute-in-Memory Accelerators for On-chip Training	Mar 13, 2020	BenchmarkingQuantization	CodeCode Available	1	5
EA-3DGS: Efficient and Adaptive 3D Gaussians with Highly Enhanced Quality for outdoor scenes	May 16, 2025	3DGSNeRF	CodeCode Available	1	5
N3H-Core: Neuron-designed Neural Network Accelerator via FPGA-based Heterogeneous Computing Cores	Dec 15, 2021	Quantization	CodeCode Available	1	5
Catastrophic Failure of LLM Unlearning via Quantization	Oct 21, 2024	Machine UnlearningQuantization	CodeCode Available	1	5
Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding	Nov 30, 2023	GPUInductive Bias	CodeCode Available	1	5
Compress Any Segment Anything Model (SAM)	Jul 11, 2025	modelQuantization	CodeCode Available	1	5
LaCo: Large Language Model Pruning via Layer Collapse	Feb 17, 2024	Knowledge DistillationLanguage Modeling	CodeCode Available	1	5
DQS3D: Densely-matched Quantization-aware Semi-supervised 3D Detection	Apr 25, 2023	3D Object Detectionobject-detection	CodeCode Available	1	5
Network Binarization via Contrastive Learning	Jul 6, 2022	BinarizationContrastive Learning	CodeCode Available	1	5
Benchmarking of DL Libraries and Models on Mobile Devices	Feb 14, 2022	BenchmarkingGPU	CodeCode Available	1	5

Show:10 25 50

← PrevPage 27 of 197Next →

All datasets ImageNet CIFAR-10 Wiki-40B AgeDB-30 CFP-FP COCO (Common Objects in Context)IJB-B IJB-C Knowledge-based:LFW

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	FQ-ViT (ViT-L)	Top-1 Accuracy (%)	85.03	—	Unverified
2	FQ-ViT (ViT-B)	Top-1 Accuracy (%)	83.31	—	Unverified
3	FQ-ViT (Swin-B)	Top-1 Accuracy (%)	82.97	—	Unverified
4	FQ-ViT (Swin-S)	Top-1 Accuracy (%)	82.71	—	Unverified
5	FQ-ViT (DeiT-B)	Top-1 Accuracy (%)	81.2	—	Unverified
6	FQ-ViT (Swin-T)	Top-1 Accuracy (%)	80.51	—	Unverified
7	FQ-ViT (DeiT-S)	Top-1 Accuracy (%)	79.17	—	Unverified
8	Xception W8A8	Top-1 Accuracy (%)	78.97	—	Unverified
9	ADLIK-MO-ResNet50-W4A4	Top-1 Accuracy (%)	77.88	—	Unverified
10	ADLIK-MO-ResNet50-W3A4	Top-1 Accuracy (%)	77.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3DCNN_VIVA_3	MAP	160,327.04	—	Unverified
2	DTQ	MAP	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OutEffHop-Bert_base	Perplexity	6.3	—	Unverified
2	OutEffHop-Bert_base	Perplexity	6.21	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	98.13	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	92.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SSD ResNet50 V1 FPN 640x640	MAP	34.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		TAR @ FAR=1e-4	95.13	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		TAR @ FAR=1e-4	96.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3DCNN_VIVA_5	All	84,809,664	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	99.8	—	Unverified