Quantization

Quantization is a promising technique to reduce the computation cost of neural network training, which can replace high-cost floating-point numbers (e.g., float32) with low-cost fixed-point numbers (e.g., int8/int16).

Source: Adaptive Precision Training: Quantify Back Propagation in Neural Networks with Fixed-point Numbers

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2926–2950 of 4925 papers

Title	Date	Tasks	Status
Sensor Selection and Distributed Quantization for Energy Efficiency in Massive MTC	Dec 7, 2024	Quantization	—Unverified
SEP-Nets: Small and Effective Pattern Networks	Jun 13, 2017	BinarizationQuantization	—Unverified
SeRP: Self-Supervised Representation Learning Using Perturbed Point Clouds	Sep 13, 2022	DecoderQuantization	—Unverified
Service Delay Minimization for Federated Learning over Mobile Devices	May 19, 2022	Federated LearningQuantization	—Unverified
Serving and Optimizing Machine Learning Workflows on Heterogeneous Infrastructures	May 10, 2022	AutoMLBIG-bench Machine Learning	—Unverified
Serving Large Language Models on Huawei CloudMatrix384	Jun 15, 2025	Mixture-of-ExpertsQuantization	—Unverified
Set-Theoretic Learning for Detection in Cell-Less C-RAN Systems	Mar 21, 2021	Quantization	—Unverified
SFC: Achieve Accurate Fast Convolution under Low-precision Arithmetic	Jul 3, 2024	Quantization	—Unverified
SGC-VQGAN: Towards Complex Scene Representation via Semantic Guided Clustering Codebook	Sep 9, 2024	ClusteringOnline Clustering	—Unverified
SGQuant: Squeezing the Last Bit on Graph Neural Networks with Specialized Quantization	Jul 9, 2020	Quantization	—Unverified
SHACIRA: Scalable HAsh-grid Compression for Implicit Neural Representations	Sep 27, 2023	Quantization	—Unverified
Shape My Moves: Text-Driven Shape-Aware Synthesis of Human Motions	Apr 4, 2025	Language ModelingLanguage Modelling	—Unverified
Shared Predictive Cross-Modal Deep Quantization	Apr 16, 2019	Quantization	—Unverified
SHARK: A Lightweight Model Compression Approach for Large-scale Recommender Systems	Aug 18, 2023	Model CompressionQuantization	—Unverified
Shifted and Squeezed 8-bit Floating Point format for Low-Precision Training of Deep Neural Networks	Jan 16, 2020	Quantization	—Unverified
Shining light on data: Geometric data analysis through quantum dynamics	Dec 1, 2022	Dimensionality ReductionQuantization	—Unverified
Shortlist Selection With Residual-Aware Distance Estimator for K-Nearest Neighbor Search	Jun 1, 2016	Quantization	—Unverified
Sigma-Delta and Distributed Noise-Shaping Quantization Methods for Random Fourier Features	Jun 4, 2021	Quantization	—Unverified
SignalNet: A Low Resolution Sinusoid Decomposition and Estimation Network	Jun 10, 2021	Quantization	—Unverified
Does Acceleration Cause Hidden Instability in Vision Language Models? Uncovering Instance-Level Divergence Through a Large-Scale Empirical Study	Mar 9, 2025	QuantizationToken Reduction	—Unverified
MERCURY: Accelerating DNN Training By Exploiting Input Similarity	Oct 28, 2021	Quantization	—Unverified
Simple and Effective Unsupervised Redundancy Elimination to Compress Dense Vectors for Passage Retrieval	Nov 1, 2021	Open-Domain Question AnsweringPassage Retrieval	—Unverified
Neural Speech Coding for Real-time Communications using Constant Bitrate Scalar Quantization	May 14, 2024	QuantizationScheduling	—Unverified
Simple Augmentation Goes a Long Way: ADRL for DNN Quantization	Jan 1, 2021	Deep Reinforcement LearningQuantization	—Unverified
Simple strategies for recovering inner products from coarsely quantized random projections	Dec 1, 2017	Data CompressionDimensionality Reduction	—Unverified

Show:10 25 50

← PrevPage 118 of 197Next →

All datasets ImageNet CIFAR-10 Wiki-40B AgeDB-30 CFP-FP COCO (Common Objects in Context)IJB-B IJB-C Knowledge-based:LFW

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	FQ-ViT (ViT-L)	Top-1 Accuracy (%)	85.03	—	Unverified
2	FQ-ViT (ViT-B)	Top-1 Accuracy (%)	83.31	—	Unverified
3	FQ-ViT (Swin-B)	Top-1 Accuracy (%)	82.97	—	Unverified
4	FQ-ViT (Swin-S)	Top-1 Accuracy (%)	82.71	—	Unverified
5	FQ-ViT (DeiT-B)	Top-1 Accuracy (%)	81.2	—	Unverified
6	FQ-ViT (Swin-T)	Top-1 Accuracy (%)	80.51	—	Unverified
7	FQ-ViT (DeiT-S)	Top-1 Accuracy (%)	79.17	—	Unverified
8	Xception W8A8	Top-1 Accuracy (%)	78.97	—	Unverified
9	ADLIK-MO-ResNet50-W4A4	Top-1 Accuracy (%)	77.88	—	Unverified
10	ADLIK-MO-ResNet50-W3A4	Top-1 Accuracy (%)	77.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3DCNN_VIVA_3	MAP	160,327.04	—	Unverified
2	DTQ	MAP	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OutEffHop-Bert_base	Perplexity	6.3	—	Unverified
2	OutEffHop-Bert_base	Perplexity	6.21	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	98.13	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	92.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SSD ResNet50 V1 FPN 640x640	MAP	34.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		TAR @ FAR=1e-4	95.13	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		TAR @ FAR=1e-4	96.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3DCNN_VIVA_5	All	84,809,664	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	99.8	—	Unverified