Quantization

Quantization is a promising technique to reduce the computation cost of neural network training, which can replace high-cost floating-point numbers (e.g., float32) with low-cost fixed-point numbers (e.g., int8/int16).

Source: Adaptive Precision Training: Quantify Back Propagation in Neural Networks with Fixed-point Numbers

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1351–1375 of 4925 papers

Title	Date	Tasks	Status	Score
Bag of Tricks for Optimizing Transformer Efficiency	Sep 9, 2021	CPUDecoder	CodeCode Available	5
DeepShift: Towards Multiplication-Less Neural Networks	May 30, 2019	Edge-computingGPU	CodeCode Available	5
Genie: Show Me the Data for Quantization	Dec 9, 2022	Data Free QuantizationQuantization	CodeCode Available	5
Deep reverse tone mapping	Nov 20, 2017	inverse tone mappingQuantization	CodeCode Available	5
GIFT-SW: Gaussian noise Injected Fine-Tuning of Salient Weights for LLMs	Aug 27, 2024	parameter-efficient fine-tuningQuantization	CodeCode Available	5
Deep residual network for steganalysis of digital images	Sep 23, 2018	Image SteganographyQuantization	CodeCode Available	5
Deep Recurrent Quantization for Generating Sequential Binary Codes	Jun 16, 2019	Image RetrievalQuantization	CodeCode Available	5
GT-SVQ: A Linear-Time Graph Transformer for Node Classification Using Spiking Vector Quantization	Apr 16, 2025	Graph LearningGraph Representation Learning	CodeCode Available	5
Hierarchical Quantized Representations for Script Generation	Aug 28, 2018	DecoderLanguage Modeling	CodeCode Available	5
Incremental Network Quantization: Towards Lossless CNNs with Low-Precision Weights	Feb 10, 2017	Quantization	CodeCode Available	5
Deep Priority Hashing	Sep 4, 2018	Deep HashingImage Retrieval	CodeCode Available	5
MINT: Multiplier-less INTeger Quantization for Energy Efficient Spiking Neural Networks	May 16, 2023	Quantization	CodeCode Available	5
Deep Optimized Multiple Description Image Coding via Scalar Quantization Learning	Jan 12, 2020	DecoderQuantization	CodeCode Available	5
Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization	Apr 4, 2024	GPULanguage Modeling	CodeCode Available	5
Generalized Learning Vector Quantization for Classification in Randomized Neural Networks and Hyperdimensional Computing	Jun 17, 2021	BIG-bench Machine LearningQuantization	CodeCode Available	5
GANQ: GPU-Adaptive Non-Uniform Quantization for Large Language Models	Jan 22, 2025	GPUQuantization	CodeCode Available	5
A2Q+: Improving Accumulator-Aware Weight Quantization	Jan 19, 2024	Quantization	CodeCode Available	5
FTT-NAS: Discovering Fault-Tolerant Convolutional Neural Architecture	Mar 20, 2020	Neural Architecture SearchQuantization	CodeCode Available	5
Deep Neural Network for Respiratory Sound Classification in Wearable Devices Enabled by Patient Specific Model Tuning	Apr 16, 2020	Anomaly DetectionGeneral Classification	CodeCode Available	5
Deep Neural Network Compression with Single and Multiple Level Quantization	Mar 6, 2018	Neural Network CompressionQuantization	CodeCode Available	5
Exploring the Trade-Offs: Quantization Methods, Task Difficulty, and Model Size in Large Language Models From Edge to Giant	Sep 17, 2024	HallucinationInstruction Following	CodeCode Available	5
FPQVAR: Floating Point Quantization for Visual Autoregressive Model with FPGA Hardware Co-design	May 22, 2025	GPUImage Generation	CodeCode Available	5
A LoRA-Based Approach to Fine-Tuning LLMs for Educational Guidance in Resource-Constrained Settings	Apr 22, 2025	Computational EfficiencyGPU	CodeCode Available	5
Deep Metric Learning to Rank	Jun 1, 2019	Image RetrievalLearning-To-Rank	CodeCode Available	5
Generalized Relevance Learning Grassmann Quantization	Mar 14, 2024	Activity RecognitionFace Recognition	CodeCode Available	5

Show:10 25 50

← PrevPage 55 of 197Next →

All datasets ImageNet CIFAR-10 Wiki-40B AgeDB-30 CFP-FP COCO (Common Objects in Context)IJB-B IJB-C Knowledge-based:LFW

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	FQ-ViT (ViT-L)	Top-1 Accuracy (%)	85.03	—	Unverified
2	FQ-ViT (ViT-B)	Top-1 Accuracy (%)	83.31	—	Unverified
3	FQ-ViT (Swin-B)	Top-1 Accuracy (%)	82.97	—	Unverified
4	FQ-ViT (Swin-S)	Top-1 Accuracy (%)	82.71	—	Unverified
5	FQ-ViT (DeiT-B)	Top-1 Accuracy (%)	81.2	—	Unverified
6	FQ-ViT (Swin-T)	Top-1 Accuracy (%)	80.51	—	Unverified
7	FQ-ViT (DeiT-S)	Top-1 Accuracy (%)	79.17	—	Unverified
8	Xception W8A8	Top-1 Accuracy (%)	78.97	—	Unverified
9	ADLIK-MO-ResNet50-W4A4	Top-1 Accuracy (%)	77.88	—	Unverified
10	ADLIK-MO-ResNet50-W3A4	Top-1 Accuracy (%)	77.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3DCNN_VIVA_3	MAP	160,327.04	—	Unverified
2	DTQ	MAP	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OutEffHop-Bert_base	Perplexity	6.3	—	Unverified
2	OutEffHop-Bert_base	Perplexity	6.21	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	98.13	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	92.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SSD ResNet50 V1 FPN 640x640	MAP	34.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		TAR @ FAR=1e-4	95.13	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		TAR @ FAR=1e-4	96.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3DCNN_VIVA_5	All	84,809,664	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	99.8	—	Unverified