Quantization

Quantization is a promising technique to reduce the computation cost of neural network training, which can replace high-cost floating-point numbers (e.g., float32) with low-cost fixed-point numbers (e.g., int8/int16).

Source: Adaptive Precision Training: Quantify Back Propagation in Neural Networks with Fixed-point Numbers

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1451–1500 of 4925 papers

Title	Date	Tasks	Status
ProFe: Communication-Efficient Decentralized Federated Learning via Distillation and Prototypes	Dec 15, 2024	Federated LearningKnowledge Distillation	—Unverified
Nanoscaling Floating-Point (NxFP): NanoMantissa, Adaptive Microexponents, and Code Recycling for Direct-Cast Compression of Large Language Models	Dec 15, 2024	MMLUQuantization	—Unverified
Progressive Compression with Universally Quantized Diffusion Models	Dec 14, 2024	Image CompressionImage Generation	—Unverified
Adaptive Quantization Resolution and Power Control for Federated Learning over Cell-free Networks	Dec 14, 2024	Federated LearningQuantization	—Unverified
TinySubNets: An efficient and low capacity continual learning strategy	Dec 14, 2024	Continual LearningQuantization	CodeCode Available
Enhancing Off-Grid One-Bit DOA Estimation with Learning-Based Sparse Bayesian Approach for Non-Uniform Sparse Array	Dec 14, 2024	Computational EfficiencyQuantization	—Unverified
Memory-Efficient 4-bit Preconditioned Stochastic Optimization	Dec 14, 2024	QuantizationStochastic Optimization	—Unverified
Efficient Generative Modeling with Residual Vector Quantization-Based Tokens	Dec 13, 2024	Conditional Image GenerationImage Generation	—Unverified
MVQ:Towards Efficient DNN Compression and Acceleration with Masked Vector Quantization	Dec 13, 2024	image-classificationImage Classification	—Unverified
TTAQ: Towards Stable Post-training Quantization in Continuous Domain Adaptation	Dec 13, 2024	Domain AdaptationQuantization	—Unverified
VQTalker: Towards Multilingual Talking Avatars through Facial Motion Tokenization	Dec 13, 2024	Face GenerationMotion Generation	—Unverified
Panacea: Novel DNN Accelerator using Accuracy-Preserving Asymmetric Quantization and Energy-Saving Bit-Slice Sparsity	Dec 13, 2024	Quantization	—Unverified
On Round-Off Errors and Gaussian Blur in Superresolution and in Image Registration	Dec 12, 2024	Image RegistrationQuantization	—Unverified
DQA: An Efficient Method for Deep Quantization of Deep Neural Network Activations	Dec 12, 2024	image-classificationImage Classification	—Unverified
Optimising TinyML with Quantization and Distillation of Transformer and Mamba Models for Indoor Localisation on Edge Devices	Dec 12, 2024	Knowledge DistillationMamba	—Unverified
CRVQ: Channel-relaxed Vector Quantization for Extreme Compression of LLMs	Dec 12, 2024	Quantization	—Unverified
Breaking the Bias: Recalibrating the Attention of Industrial Anomaly Detection	Dec 11, 2024	Anomaly DetectionComputational Efficiency	—Unverified
TurboAttention: Efficient Attention Approximation For High Throughputs LLMs	Dec 11, 2024	Computational EfficiencyLanguage Modeling	—Unverified
Low-Rank Correction for Quantized LLMs	Dec 10, 2024	Model CompressionQuantization	—Unverified
QuantFormer: Learning to Quantize for Neural Activity Forecasting in Mouse Visual Cortex	Dec 10, 2024	Quantization	—Unverified
Post-Training Non-Uniform Quantization for Convolutional Neural Networks	Dec 10, 2024	image-classificationImage Classification	—Unverified
Machine learning-driven conservative-to-primitive conversion in hybrid piecewise polytropic and tabulated equations of state	Dec 10, 2024	CPUGPU	—Unverified
Compression for Better: A General and Stable Lossless Compression Framework	Dec 9, 2024	Computational EfficiencyModel Compression	—Unverified
Efficiency Meets Fidelity: A Novel Quantization Framework for Stable Diffusion	Dec 9, 2024	DenoisingImage Generation	—Unverified
FP=xINT:A Low-Bit Series Expansion Algorithm for Post-Training Quantization	Dec 9, 2024	Quantization	—Unverified
Federated Split Learning with Model Pruning and Gradient Quantization in Wireless Networks	Dec 9, 2024	Federated LearningQuantization	—Unverified
Fuzzy Norm-Explicit Product Quantization for Recommender Systems	Dec 8, 2024	QuantizationRecommendation Systems	—Unverified
Vision Transformer-based Semantic Communications With Importance-Aware Quantization	Dec 8, 2024	image-classificationImage Classification	—Unverified
SizeGS: Size-aware Compression of 3D Gaussians with Hierarchical Mixed Precision Quantization	Dec 8, 2024	3DGSAttribute	—Unverified
Taming Sensitive Weights : Noise Perturbation Fine-tuning for Robust LLM Quantization	Dec 8, 2024	Quantization	—Unverified
Error Feedback Approach for Quantization Noise Reduction of Distributed Graph Filters	Dec 7, 2024	Quantization	—Unverified
Sensor Selection and Distributed Quantization for Energy Efficiency in Massive MTC	Dec 7, 2024	Quantization	—Unverified
GAQAT: gradient-adaptive quantization-aware training for domain generalization	Dec 7, 2024	Domain GeneralizationQuantization	—Unverified
Efficient Distributed Training through Gradient Compression with Sparsification and Quantization Techniques	Dec 7, 2024	Quantization	—Unverified
Trimming Down Large Spiking Vision Transformers via Heterogeneous Quantization Search	Dec 7, 2024	Model CompressionQuantization	—Unverified
ULMRec: User-centric Large Language Model for Sequential Recommendation	Dec 7, 2024	Language ModelingLanguage Modelling	—Unverified
SKIM: Any-bit Quantization Pushing The Limits of Post-Training Quantization	Dec 5, 2024	ClusteringGPU	—Unverified
Quantized and Interpretable Learning Scheme for Deep Neural Networks in Classification Task	Dec 5, 2024	image-classificationImage Classification	—Unverified
Unifying KV Cache Compression for Large Language Models with LeanKV	Dec 4, 2024	GPUQuantization	—Unverified
FlashAttention on a Napkin: A Diagrammatic Approach to Deep Learning IO-Awareness	Dec 4, 2024	GPUQuantization	—Unverified
Prompting Large Language Models for Clinical Temporal Relation Extraction	Dec 4, 2024	DecoderQuantization	—Unverified
Designing DNNs for a trade-off between robustness and processing performance in embedded devices	Dec 4, 2024	Autonomous DrivingQuantization	—Unverified
Evaluating Single Event Upsets in Deep Neural Networks for Semantic Segmentation: an embedded system perspective	Dec 4, 2024	Autonomous DrivingQuantization	CodeCode Available
Mixed-Precision Quantization: Make the Best Use of Bits Where They Matter Most	Dec 4, 2024	Quantization	—Unverified
CPTQuant -- A Novel Mixed Precision Post-Training Quantization Techniques for Large Language Models	Dec 3, 2024	Language ModelingLanguage Modelling	—Unverified
3D representation in 512-Byte:Variational tokenizer is the key for autoregressive 3D generation	Dec 3, 2024	3D GenerationImage Generation	—Unverified
CEGI: Measuring the trade-off between efficiency and carbon emissions for SLMs and VLMs	Dec 3, 2024	Image CaptioningQuantization	—Unverified
Robust Precoding for Multi-User Visible Light Communications with Quantized Channel Information	Dec 3, 2024	Quantization	—Unverified
Scaling Image Tokenizers with Grouped Spherical Quantization	Dec 3, 2024	Quantization	CodeCode Available
Lean classical-quantum hybrid neural network model for image classification	Dec 3, 2024	ClassificationDecision Making	—Unverified

Show:10 25 50

← PrevPage 30 of 99Next →

All datasets ImageNet CIFAR-10 Wiki-40B AgeDB-30 CFP-FP COCO (Common Objects in Context)IJB-B IJB-C Knowledge-based:LFW

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	FQ-ViT (ViT-L)	Top-1 Accuracy (%)	85.03	—	Unverified
2	FQ-ViT (ViT-B)	Top-1 Accuracy (%)	83.31	—	Unverified
3	FQ-ViT (Swin-B)	Top-1 Accuracy (%)	82.97	—	Unverified
4	FQ-ViT (Swin-S)	Top-1 Accuracy (%)	82.71	—	Unverified
5	FQ-ViT (DeiT-B)	Top-1 Accuracy (%)	81.2	—	Unverified
6	FQ-ViT (Swin-T)	Top-1 Accuracy (%)	80.51	—	Unverified
7	FQ-ViT (DeiT-S)	Top-1 Accuracy (%)	79.17	—	Unverified
8	Xception W8A8	Top-1 Accuracy (%)	78.97	—	Unverified
9	ADLIK-MO-ResNet50-W4A4	Top-1 Accuracy (%)	77.88	—	Unverified
10	ADLIK-MO-ResNet50-W3A4	Top-1 Accuracy (%)	77.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3DCNN_VIVA_3	MAP	160,327.04	—	Unverified
2	DTQ	MAP	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OutEffHop-Bert_base	Perplexity	6.3	—	Unverified
2	OutEffHop-Bert_base	Perplexity	6.21	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	98.13	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	92.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SSD ResNet50 V1 FPN 640x640	MAP	34.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		TAR @ FAR=1e-4	95.13	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		TAR @ FAR=1e-4	96.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3DCNN_VIVA_5	All	84,809,664	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	99.8	—	Unverified