Quantization

Quantization is a promising technique to reduce the computation cost of neural network training, which can replace high-cost floating-point numbers (e.g., float32) with low-cost fixed-point numbers (e.g., int8/int16).

Source: Adaptive Precision Training: Quantify Back Propagation in Neural Networks with Fixed-point Numbers

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1576–1600 of 4925 papers

Title	Date	Tasks	Status
Atleus: Accelerating Transformers on the Edge Enabled by 3D Heterogeneous Manycore Architectures	Jan 16, 2025	Model CompressionQuantization	—Unverified
Cross-Layer Optimization for Fault-Tolerant Deep Learning	Dec 21, 2023	Bayesian OptimizationDeep Learning	—Unverified
Cross-Layer Discrete Concept Discovery for Interpreting Language Models	Jun 24, 2025	DiversityQuantization	—Unverified
A TinyML Platform for On-Device Continual Learning with Quantized Latent Replays	Oct 20, 2021	Continual LearningQuantization	—Unverified
AHCPTQ: Accurate and Hardware-Compatible Post-Training Quantization for Segment Anything Model	Mar 5, 2025	Instance SegmentationQuantization	—Unverified
Cross-Dataset Propensity Estimation for Debiasing Recommender Systems	Dec 22, 2022	Causal InferenceQuantization	—Unverified
Crop Disease Classification using Support Vector Machines with Green Chromatic Coordinate (GCC) and Attention based feature extraction for IoT based Smart Agricultural Applications	Nov 1, 2023	NutritionQuantization	—Unverified
A Tiny CNN Architecture for Medical Face Mask Detection for Resource-Constrained Endpoints	Nov 30, 2020	Quantization	—Unverified
Croesus: Multi-Stage Processing and Transactions for Video-Analytics in Edge-Cloud Systems	Dec 31, 2021	Model Compressionobject-detection	—Unverified
CREW: Computation Reuse and Efficient Weight Storage for Hardware-accelerated MLPs and RNNs	Jul 20, 2021	Quantization	—Unverified
A Gridless Compressive Sensing Based Channel Estimation for Millimeter Wave MIMO OFDM Systems with One-Bit Quantization	Aug 19, 2019	Compressive SensingQuantization	—Unverified
Achieving Robustness in Blind Modulo Analog-to-Digital Conversion	Dec 24, 2024	Quantization	—Unverified
CRB Analysis for Mixed-ADC Based DOA Estimation	Mar 14, 2024	QuantizationSparse Learning	—Unverified
Athena: Efficient Block-Wise Post-Training Quantization for Large Language Models Using Second-Order Matrix Derivative Information	May 24, 2024	Edge-computingMachine Translation	—Unverified
CQ-VAE: Coordinate Quantized VAE for Uncertainty Estimation with Application to Disk Shape Analysis from Lumbar Spine MRI Images	Oct 17, 2020	Quantization	—Unverified
ATHEENA: A Toolflow for Hardware Early-Exit Network Automation	Apr 17, 2023	Quantization	—Unverified
CPT-V: A Contrastive Approach to Post-Training Quantization of Vision Transformers	Nov 17, 2022	QuantizationSelf-Supervised Learning	—Unverified
CPTQuant -- A Novel Mixed Precision Post-Training Quantization Techniques for Large Language Models	Dec 3, 2024	Language ModelingLanguage Modelling	—Unverified
A Targeted Acceleration and Compression Framework for Low bit Neural Networks	Jul 9, 2019	BinarizationComputational Efficiency	—Unverified
A Greedy Bit-flip Training Algorithm for Binarized Knowledge Graph Embeddings	Nov 1, 2020	Graph EmbeddingKnowledge Graph Completion	—Unverified
Achieving binary weight and activation for LLMs using Post-Training Quantization	Apr 7, 2025	Quantization	—Unverified
COVIDLite: A depth-wise separable deep neural network with white balance and CLAHE for detection of COVID-19	Jun 19, 2020	Binary ClassificationDiagnostic	—Unverified
Covering Numbers for Deep ReLU Networks with Applications to Function Approximation and Nonparametric Regression	Oct 8, 2024	Quantizationregression	—Unverified
A System-Level Solution for Low-Power Object Detection	Sep 24, 2019	CPUObject	—Unverified
Covariance Recovery for One-Bit Sampled Data With Time-Varying Sampling Thresholds-Part I: Stationary Signals	Mar 16, 2022	QuantizationRelation	—Unverified

Show:10 25 50

← PrevPage 64 of 197Next →

All datasets ImageNet CIFAR-10 Wiki-40B AgeDB-30 CFP-FP COCO (Common Objects in Context)IJB-B IJB-C Knowledge-based:LFW

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	FQ-ViT (ViT-L)	Top-1 Accuracy (%)	85.03	—	Unverified
2	FQ-ViT (ViT-B)	Top-1 Accuracy (%)	83.31	—	Unverified
3	FQ-ViT (Swin-B)	Top-1 Accuracy (%)	82.97	—	Unverified
4	FQ-ViT (Swin-S)	Top-1 Accuracy (%)	82.71	—	Unverified
5	FQ-ViT (DeiT-B)	Top-1 Accuracy (%)	81.2	—	Unverified
6	FQ-ViT (Swin-T)	Top-1 Accuracy (%)	80.51	—	Unverified
7	FQ-ViT (DeiT-S)	Top-1 Accuracy (%)	79.17	—	Unverified
8	Xception W8A8	Top-1 Accuracy (%)	78.97	—	Unverified
9	ADLIK-MO-ResNet50-W4A4	Top-1 Accuracy (%)	77.88	—	Unverified
10	ADLIK-MO-ResNet50-W3A4	Top-1 Accuracy (%)	77.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3DCNN_VIVA_3	MAP	160,327.04	—	Unverified
2	DTQ	MAP	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OutEffHop-Bert_base	Perplexity	6.3	—	Unverified
2	OutEffHop-Bert_base	Perplexity	6.21	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	98.13	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	92.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SSD ResNet50 V1 FPN 640x640	MAP	34.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		TAR @ FAR=1e-4	95.13	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		TAR @ FAR=1e-4	96.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3DCNN_VIVA_5	All	84,809,664	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	99.8	—	Unverified