Quantization

Quantization is a promising technique to reduce the computation cost of neural network training, which can replace high-cost floating-point numbers (e.g., float32) with low-cost fixed-point numbers (e.g., int8/int16).

Source: Adaptive Precision Training: Quantify Back Propagation in Neural Networks with Fixed-point Numbers

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4801–4825 of 4925 papers

Title	Date	Tasks	Status
High-Accuracy Low-Precision Training	Mar 9, 2018	CPUQuantization	CodeCode Available
Rethinking floating point for deep learning	Nov 1, 2018	Deep LearningMath	CodeCode Available
The Neural Network Pushdown Automaton: Model, Stack and Learning Simulations	Nov 15, 2017	Quantization	CodeCode Available
Approximate spectral clustering density-based similarity for noisy datasets	Feb 22, 2023	ClusteringGraph Clustering	CodeCode Available
CASP: Compression of Large Multimodal Models Based on Attention Sparsity	Mar 7, 2025	Model CompressionQuantization	CodeCode Available
The Power of Negative Zero: Datatype Customization for Quantized Large Language Models	Jan 6, 2025	Computational EfficiencyQuantization	CodeCode Available
Eliminating Quantization Errors in Classification-Based Sound Source Localization	Nov 21, 2023	ClassificationQuantization	CodeCode Available
Weighted quantization using MMD: From mean field to mean shift via gradient flows	Feb 14, 2025	ClusteringQuantization	CodeCode Available
EAST: Encoding-Aware Sparse Training for Deep Memory Compression of ConvNets	Dec 20, 2019	Quantization	CodeCode Available
EAQuant: Enhancing Post-Training Quantization for MoE Models via Expert-Aware Optimization	Jun 16, 2025	Mixture-of-ExpertsModel Compression	CodeCode Available
Probabilistic Weight Fixing: Large-scale training of neural network weight uncertainties for quantization	Sep 24, 2023	PositionQuantization	CodeCode Available
Hierarchical Quantized Representations for Script Generation	Aug 28, 2018	DecoderLanguage Modeling	CodeCode Available
Revealing and Protecting Labels in Distributed Training	Oct 31, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
CoopNet: Cooperative Convolutional Neural Network for Low-Power MCUs	Nov 19, 2019	BinarizationQuantization	CodeCode Available
The Quantization Model of Neural Scaling	Mar 23, 2023	Language ModelingLanguage Modelling	CodeCode Available
DuFFin: A Dual-Level Fingerprinting Framework for LLMs IP Protection	May 22, 2025	QuantizationSafety Alignment	CodeCode Available
Hierarchical Encoding of Sequential Data With Compact and Sub-Linear Storage Cost	Oct 1, 2019	QuantizationSimultaneous Localization and Mapping	CodeCode Available
A Comprehensive Evaluation of Quantization Strategies for Large Language Models	Feb 26, 2024	Language ModelingLanguage Modelling	CodeCode Available
Progressive DNN Compression: A Key to Achieve Ultra-High Weight Pruning and Quantization Rates using ADMM	Mar 23, 2019	Model CompressionQuantization	CodeCode Available
Adversarial Fine-tuning of Compressed Neural Networks for Joint Improvement of Robustness and Efficiency	Mar 14, 2024	Adversarial RobustnessModel Compression	CodeCode Available
Hessian Aware Quantization of Spiking Neural Networks	Apr 29, 2021	Quantization	CodeCode Available
Convolutional Neural Networks to Enhance Coded Speech	Jun 25, 2018	Quantization	CodeCode Available
Revisiting Multi-Codebook Quantization	May 21, 2021	QuantizationRetrieval	CodeCode Available
Progressive Stochastic Binarization of Deep Networks	Apr 3, 2019	BinarizationNetwork Pruning	CodeCode Available
Convert, compress, correct: Three steps toward communication-efficient DNN training	Mar 17, 2022	Quantization	CodeCode Available

Show:10 25 50

← PrevPage 193 of 197Next →

All datasets ImageNet CIFAR-10 Wiki-40B AgeDB-30 CFP-FP COCO (Common Objects in Context)IJB-B IJB-C Knowledge-based:LFW

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	FQ-ViT (ViT-L)	Top-1 Accuracy (%)	85.03	—	Unverified
2	FQ-ViT (ViT-B)	Top-1 Accuracy (%)	83.31	—	Unverified
3	FQ-ViT (Swin-B)	Top-1 Accuracy (%)	82.97	—	Unverified
4	FQ-ViT (Swin-S)	Top-1 Accuracy (%)	82.71	—	Unverified
5	FQ-ViT (DeiT-B)	Top-1 Accuracy (%)	81.2	—	Unverified
6	FQ-ViT (Swin-T)	Top-1 Accuracy (%)	80.51	—	Unverified
7	FQ-ViT (DeiT-S)	Top-1 Accuracy (%)	79.17	—	Unverified
8	Xception W8A8	Top-1 Accuracy (%)	78.97	—	Unverified
9	ADLIK-MO-ResNet50-W4A4	Top-1 Accuracy (%)	77.88	—	Unverified
10	ADLIK-MO-ResNet50-W3A4	Top-1 Accuracy (%)	77.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3DCNN_VIVA_3	MAP	160,327.04	—	Unverified
2	DTQ	MAP	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OutEffHop-Bert_base	Perplexity	6.3	—	Unverified
2	OutEffHop-Bert_base	Perplexity	6.21	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	98.13	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	92.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SSD ResNet50 V1 FPN 640x640	MAP	34.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		TAR @ FAR=1e-4	95.13	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		TAR @ FAR=1e-4	96.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3DCNN_VIVA_5	All	84,809,664	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	99.8	—	Unverified