Quantization

Quantization is a promising technique to reduce the computation cost of neural network training, which can replace high-cost floating-point numbers (e.g., float32) with low-cost fixed-point numbers (e.g., int8/int16).

Source: Adaptive Precision Training: Quantify Back Propagation in Neural Networks with Fixed-point Numbers

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2826–2850 of 4925 papers

Title	Date	Tasks	Status
SME: ReRAM-based Sparse-Multiplication-Engine to Squeeze-Out Bit Sparsity of Neural Network	Mar 2, 2021	Quantization	—Unverified
Theoretically Better and Numerically Faster Distributed Optimization with Smoothness-Aware Quantization Techniques	Jun 7, 2021	BIG-bench Machine LearningDistributed Optimization	—Unverified
SNN Architecture for Differential Time Encoding Using Decoupled Processing Time	Nov 24, 2023	Quantization	—Unverified
CrAFT: Compression-Aware Fine-Tuning for Efficient Visual Task Adaptation	May 8, 2023	GPUModel Compression	—Unverified
Soft Convex Quantization: Revisiting Vector Quantization with Convex Optimization	Oct 4, 2023	Image ReconstructionQuantization	—Unverified
Soft Label Coding for End-to-end Sound Source Localization With Ad-hoc Microphone Arrays	Apr 15, 2023	QuantizationSound Source Localization	—Unverified
SoftmAP: Software-Hardware Co-design for Integer-Only Softmax on Associative Processors	Nov 26, 2024	QuantizationSensitivity	—Unverified
Softmax Bias Correction for Quantized Generative Models	Sep 4, 2023	Language ModelingLanguage Modelling	—Unverified
Soft then Hard: Rethinking the Quantization in Neural Image Compression	Apr 12, 2021	Image CompressionQuantization	—Unverified
Soft-to-Hard Vector Quantization for End-to-End Learning Compressible Representations	Apr 3, 2017	Image CompressionNeural Network Compression	—Unverified
Solving Continual Offline RL through Selective Weights Activation on Aligned Spaces	Oct 21, 2024	Continual LearningLifelong learning	—Unverified
Solving Multi-Arm Bandit Using a Few Bits of Communication	Nov 11, 2021	Active LearningQuantization	—Unverified
Some Further Evidence about Magnification and Shape in Neural Gas	Mar 28, 2015	Quantization	—Unverified
Sometimes Painful but Certainly Promising: Feasibility and Trade-offs of Language Model Inference at the Edge	Mar 12, 2025	CPUGPU	—Unverified
Some useful approximations for calculation of directivities of multibeam power patterns of large planar arrays	Jun 18, 2020	Quantization	—Unverified
Sorbet: A Neuromorphic Hardware-Compatible Transformer-Based Spiking Language Model	Sep 4, 2024	Knowledge DistillationLanguage Modeling	—Unverified
Sound Event Detection with Binary Neural Networks on Tightly Power-Constrained IoT Devices	Jan 12, 2021	Event DetectionObject Recognition	—Unverified
Span Pointer Networks for Non-Autoregressive Task-Oriented Semantic Parsing	Apr 15, 2021	Cross-Lingual TransferDecoder	—Unverified
SPAQ-DL-SLAM: Towards Optimizing Deep Learning-based SLAM for Resource-Constrained Embedded Platforms	Sep 22, 2024	QuantizationSimultaneous Localization and Mapping	—Unverified
SPARQ-SGD: Event-Triggered and Compressed Communication in Decentralized Stochastic Optimization	Oct 31, 2019	QuantizationStochastic Optimization	—Unverified
Sparse*BERT: Sparse Models Generalize To New tasks and Domains	May 25, 2022	Quantization	—Unverified
Sparse Composite Quantization	Jun 1, 2015	QuantizationRetrieval	—Unverified
Sparse-Inductive Generative Adversarial Hashing for Nearest Neighbor Search	Jun 12, 2023	compressed sensingQuantization	—Unverified
Sparse Joint Transmission for Cloud Radio Access Networks with Limited Fronthaul Capacity	Jul 29, 2021	Quantization	—Unverified
Sparse linear regression with compressed and low-precision data via concave quadratic programming	Sep 9, 2019	Quantizationregression	—Unverified

Show:10 25 50

← PrevPage 114 of 197Next →

All datasets ImageNet CIFAR-10 Wiki-40B AgeDB-30 CFP-FP COCO (Common Objects in Context)IJB-B IJB-C Knowledge-based:LFW

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	FQ-ViT (ViT-L)	Top-1 Accuracy (%)	85.03	—	Unverified
2	FQ-ViT (ViT-B)	Top-1 Accuracy (%)	83.31	—	Unverified
3	FQ-ViT (Swin-B)	Top-1 Accuracy (%)	82.97	—	Unverified
4	FQ-ViT (Swin-S)	Top-1 Accuracy (%)	82.71	—	Unverified
5	FQ-ViT (DeiT-B)	Top-1 Accuracy (%)	81.2	—	Unverified
6	FQ-ViT (Swin-T)	Top-1 Accuracy (%)	80.51	—	Unverified
7	FQ-ViT (DeiT-S)	Top-1 Accuracy (%)	79.17	—	Unverified
8	Xception W8A8	Top-1 Accuracy (%)	78.97	—	Unverified
9	ADLIK-MO-ResNet50-W4A4	Top-1 Accuracy (%)	77.88	—	Unverified
10	ADLIK-MO-ResNet50-W3A4	Top-1 Accuracy (%)	77.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3DCNN_VIVA_3	MAP	160,327.04	—	Unverified
2	DTQ	MAP	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OutEffHop-Bert_base	Perplexity	6.3	—	Unverified
2	OutEffHop-Bert_base	Perplexity	6.21	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	98.13	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	92.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SSD ResNet50 V1 FPN 640x640	MAP	34.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		TAR @ FAR=1e-4	95.13	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		TAR @ FAR=1e-4	96.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3DCNN_VIVA_5	All	84,809,664	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	99.8	—	Unverified