Quantization

Quantization is a promising technique to reduce the computation cost of neural network training, which can replace high-cost floating-point numbers (e.g., float32) with low-cost fixed-point numbers (e.g., int8/int16).

Source: Adaptive Precision Training: Quantify Back Propagation in Neural Networks with Fixed-point Numbers

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1726–1750 of 4925 papers

Title	Date	Tasks	Status
Dynamic Predictive Sampling Analog to Digital Converter for Sparse Signal Sensing	Nov 17, 2022	Data CompressionQuantization	—Unverified
Blended Coarse Gradient Descent for Full Quantization of Deep Neural Networks	Aug 15, 2018	BinarizationQuantization	—Unverified
ADaPTION: Toolbox and Benchmark for Training Convolutional Neural Networks with Reduced Numerical Precision Weights and Activation	Nov 13, 2017	Quantization	—Unverified
FQ-Conv: Fully Quantized Convolution for Efficient and Accurate Inference	Dec 19, 2019	Quantization	—Unverified
Adaptive Error-Bounded Hierarchical Matrices for Efficient Neural Network Compression	Sep 11, 2024	Efficient Neural NetworkNeural Network Compression	—Unverified
Bi-ViT: Pushing the Limit of Vision Transformer Quantization	May 21, 2023	BinarizationQuantization	—Unverified
FastSGD: A Fast Compressed SGD Framework for Distributed Machine Learning	Dec 8, 2021	BIG-bench Machine LearningQuantization	—Unverified
Dynamic Cell Modeling of Li-Ion Polymer Batteries for Precise SOC Estimation in Power-Needy Autonomous Electric Vehicles	Jun 19, 2023	Quantization	—Unverified
DyBit: Dynamic Bit-Precision Numbers for Efficient Quantized Neural Network Inference	Feb 24, 2023	Quantization	—Unverified
An Experimental Study of Reduced-Voltage Operation in Modern FPGAs for Neural Network Acceleration	May 4, 2020	image-classificationImage Classification	—Unverified
DV-Det: Efficient 3D Point Cloud Object Detection with Dynamic Voxelization	Jul 27, 2021	3D Object Detectionobject-detection	—Unverified
Fast top-K Cosine Similarity Search through XOR-Friendly Binary Quantization on GPUs	Aug 5, 2020	GPUQuantization	—Unverified
FAT: An In-Memory Accelerator with Fast Addition for Ternary Weight Neural Networks	Jan 19, 2022	Quantization	—Unverified
DupNet: Towards Very Tiny Quantized CNN with Improved Accuracy for Face Detection	Nov 13, 2019	Face DetectionQuantization	—Unverified
FATNN: Fast and Accurate Ternary Neural Networks	Aug 12, 2020	image-classificationImage Classification	—Unverified
Fault-Tolerant Four-Dimensional Constellation for Coherent Optical Transmission Systems	Nov 29, 2023	Quantization	—Unverified
BitTTS: Highly Compact Text-to-Speech Using 1.58-bit Quantization and Weight Indexing	Jun 4, 2025	Quantizationtext-to-speech	—Unverified
FBI: Fingerprinting models with Benign Inputs	Aug 5, 2022	Quantization	—Unverified
Compact recurrent neural networks for acoustic event detection on low-energy low-complexity platforms	Jan 29, 2020	Event DetectionQuantization	—Unverified
FBQuant: FeedBack Quantization for Large Language Models	Jan 25, 2025	Quantization	—Unverified
FCN-Pose: A Pruned and Quantized CNN for Robot Pose Estimation for Constrained Devices	May 26, 2022	Pose EstimationQuantization	—Unverified
An Experimental Study: Assessing the Combined Framework of WavLM and BEST-RQ for Text-to-Speech Synthesis	Dec 8, 2023	BenchmarkingQuantization	—Unverified
FD Cell-Free mMIMO: Analysis and Optimization	Oct 27, 2020	Quantization	—Unverified
Dual Precision Quantization for Efficient and Accurate Deep Neural Networks Inference	May 20, 2025	Quantizationspeech-recognition	—Unverified
An Exact Quantized Decentralized Gradient Descent Algorithm	Jun 29, 2018	Distributed OptimizationQuantization	—Unverified

Show:10 25 50

← PrevPage 70 of 197Next →

All datasets ImageNet CIFAR-10 Wiki-40B AgeDB-30 CFP-FP COCO (Common Objects in Context)IJB-B IJB-C Knowledge-based:LFW

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	FQ-ViT (ViT-L)	Top-1 Accuracy (%)	85.03	—	Unverified
2	FQ-ViT (ViT-B)	Top-1 Accuracy (%)	83.31	—	Unverified
3	FQ-ViT (Swin-B)	Top-1 Accuracy (%)	82.97	—	Unverified
4	FQ-ViT (Swin-S)	Top-1 Accuracy (%)	82.71	—	Unverified
5	FQ-ViT (DeiT-B)	Top-1 Accuracy (%)	81.2	—	Unverified
6	FQ-ViT (Swin-T)	Top-1 Accuracy (%)	80.51	—	Unverified
7	FQ-ViT (DeiT-S)	Top-1 Accuracy (%)	79.17	—	Unverified
8	Xception W8A8	Top-1 Accuracy (%)	78.97	—	Unverified
9	ADLIK-MO-ResNet50-W4A4	Top-1 Accuracy (%)	77.88	—	Unverified
10	ADLIK-MO-ResNet50-W3A4	Top-1 Accuracy (%)	77.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3DCNN_VIVA_3	MAP	160,327.04	—	Unverified
2	DTQ	MAP	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OutEffHop-Bert_base	Perplexity	6.3	—	Unverified
2	OutEffHop-Bert_base	Perplexity	6.21	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	98.13	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	92.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SSD ResNet50 V1 FPN 640x640	MAP	34.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		TAR @ FAR=1e-4	95.13	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		TAR @ FAR=1e-4	96.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3DCNN_VIVA_5	All	84,809,664	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	99.8	—	Unverified