Quantization

Quantization is a promising technique to reduce the computation cost of neural network training, which can replace high-cost floating-point numbers (e.g., float32) with low-cost fixed-point numbers (e.g., int8/int16).

Source: Adaptive Precision Training: Quantify Back Propagation in Neural Networks with Fixed-point Numbers

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1951–2000 of 4925 papers

Title	Date	Tasks	Status
Zeroth-Order Fine-Tuning of LLMs with Extreme Sparsity	Jun 5, 2024	GPUQuantization	—Unverified
Mixed-Precision Federated Learning via Multi-Precision Over-The-Air Aggregation	Jun 4, 2024	Computational EfficiencyEdge-computing	—Unverified
Toward Efficient Deep Spiking Neuron Networks:A Survey On Compression	Jun 3, 2024	Knowledge DistillationQuantization	—Unverified
Log-Scale Quantization in Distributed First-Order Methods: Gradient-based Learning from Distributed Data	Jun 2, 2024	Distributed OptimizationQuantization	—Unverified
Privacy-Aware Randomized Quantization via Linear Programming	Jun 1, 2024	Quantization	CodeCode Available
LCQ: Low-Rank Codebook based Quantization for Large Language Models	May 31, 2024	Model CompressionQuantization	—Unverified
Outliers and Calibration Sets have Diminishing Effect on Quantization of Modern LLMs	May 31, 2024	Quantization	—Unverified
Effective Interplay between Sparsity and Quantization: From Theory to Practice	May 31, 2024	Computational EfficiencyModel Compression	—Unverified
Locking Machine Learning Models into Hardware	May 31, 2024	Quantization	—Unverified
HQ-DiT: Efficient Diffusion Transformer with FP4 Hybrid Quantization	May 30, 2024	Quantization	—Unverified
An Efficient Network with Novel Quantization Designed for Massive MIMO CSI Feedback	May 30, 2024	Quantization	—Unverified
One QuantLLM for ALL: Fine-tuning Quantized LLMs Once for Efficient Deployments	May 30, 2024	AllQuantization	—Unverified
S3D: A Simple and Cost-Effective Self-Speculative Decoding Scheme for Low-Memory GPUs	May 30, 2024	GPUQuantization	—Unverified
Information Entropy Guided Height-aware Histogram for Quantization-friendly Pillar Feature Encoder	May 29, 2024	3D Object DetectionAutonomous Driving	—Unverified
LLaMA-NAS: Efficient Neural Architecture Search for Large Language Models	May 28, 2024	Neural Architecture SearchQuantization	—Unverified
MixDQ: Memory-Efficient Few-Step Text-to-Image Diffusion Models with Metric-Decoupled Mixed Precision Quantization	May 28, 2024	DenoisingQuantization	—Unverified
I-LLM: Efficient Integer-Only Inference for Fully-Quantized Low-Bit Large Language Models	May 28, 2024	Quantization	—Unverified
The Binary Quantized Neural Network for Dense Prediction via Specially Designed Upsampling and Attention	May 28, 2024	object-detectionObject Detection	—Unverified
Di^2Pose: Discrete Diffusion Model for Occluded 3D Human Pose Estimation	May 27, 2024	3D Human Pose EstimationMonocular 3D Human Pose Estimation	—Unverified
CLAQ: Pushing the Limits of Low-Bit Post-Training Quantization for LLMs	May 27, 2024	Computational EfficiencyQuantization	CodeCode Available
UniCompress: Enhancing Multi-Data Medical Image Compression with Knowledge Distillation	May 27, 2024	Image CompressionKnowledge Distillation	—Unverified
BeamVQ: Aligning Space-Time Forecasting Model via Self-training on Physics-aware Metrics	May 27, 2024	DecoderQuantization	—Unverified
FastQuery: Communication-efficient Embedding Table Query for Private LLM Inference	May 25, 2024	Quantization	—Unverified
Athena: Efficient Block-Wise Post-Training Quantization for Large Language Models Using Second-Order Matrix Derivative Information	May 24, 2024	Edge-computingMachine Translation	—Unverified
BiSup: Bidirectional Quantization Error Suppression for Large Language Models	May 24, 2024	parameter-efficient fine-tuningQuantization	—Unverified
Massive MIMO-ISAC System With 1-Bit ADCs/DACs	May 24, 2024	Integrated sensing and communicationISAC	—Unverified
MultiCast: Zero-Shot Multivariate Time Series Forecasting Using LLMs	May 23, 2024	Multivariate Time Series ForecastingQuantization	—Unverified
Integer Scale: A Free Lunch for Faster Fine-grained Quantization of LLMs	May 23, 2024	Quantization	—Unverified
Mitigating Quantization Errors Due to Activation Spikes in GLU-Based LLMs	May 23, 2024	Quantization	CodeCode Available
ASI++: Towards Distributionally Balanced End-to-End Generative Retrieval	May 23, 2024	Information RetrievalQuantization	—Unverified
Bracket Diffusion: HDR Image Generation by Consistent LDR Denoising	May 23, 2024	DenoisingImage Generation	—Unverified
OAC: Output-adaptive Calibration for Accurate Post-training Quantization	May 23, 2024	Quantization	—Unverified
A rescaling-invariant Lipschitz bound based on path-metrics for modern ReLU network parameterizations	May 23, 2024	Generalization BoundsNetwork Pruning	—Unverified
Embedding Compression for Efficient Re-Identification	May 23, 2024	Dimensionality ReductionQuantization	—Unverified
MiniCache: KV Cache Compression in Depth Dimension for Large Language Models	May 23, 2024	Quantization	—Unverified
Distilling Vision-Language Pretraining for Efficient Cross-Modal Retrieval	May 23, 2024	Cross-Modal RetrievalQuantization	—Unverified
LG-VQ: Language-Guided Codebook Learning	May 23, 2024	Image CaptioningImage Generation	—Unverified
AdpQ: A Zero-shot Calibration Free Adaptive Post Training Quantization Method for LLMs	May 22, 2024	Privacy PreservingQuantization	—Unverified
eXmY: A Data Type and Technique for Arbitrary Bit Precision Quantization	May 22, 2024	CPUQuantization	—Unverified
Adaptive Wireless Image Semantic Transmission and Over-The-Air Testing	May 22, 2024	Intelligent Communicationobject-detection	—Unverified
QGait: Toward Accurate Quantization for Gait Recognition with Binarized Input	May 22, 2024	Gait RecognitionQuantization	—Unverified
Communication-Efficient Federated Learning via Clipped Uniform Quantization	May 22, 2024	Federated LearningQuantization	CodeCode Available
Two Heads are Better Than One: Neural Networks Quantization with 2D Hilbert Curve-based Output Representation	May 22, 2024	CPUobject-detection	—Unverified
Discrete Cosine Transform Based Decorrelated Attention for Vision Transformers	May 22, 2024	Quantization	—Unverified
Generative AI in Cybersecurity: A Comprehensive Review of LLM Applications and Vulnerabilities	May 21, 2024	Data PoisoningIntrusion Detection	—Unverified
ReALLM: A general framework for LLM compression and fine-tuning	May 21, 2024	DecoderQuantization	—Unverified
On Image Registration and Subpixel Estimation	May 21, 2024	Image RegistrationQuantization	—Unverified
Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression	May 21, 2024	QuantizationTensor Decomposition	CodeCode Available
Online Signature Recognition: A Biologically Inspired Feature Vector Splitting Approach	May 21, 2024	Dynamic Time WarpingQuantization	—Unverified
TinyM^2Net-V3: Memory-Aware Compressed Multimodal Deep Neural Networks for Sustainable Edge Deployment	May 20, 2024	Knowledge DistillationModel Compression	—Unverified

Show:10 25 50

← PrevPage 40 of 99Next →

All datasets ImageNet CIFAR-10 Wiki-40B AgeDB-30 CFP-FP COCO (Common Objects in Context)IJB-B IJB-C Knowledge-based:LFW

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	FQ-ViT (ViT-L)	Top-1 Accuracy (%)	85.03	—	Unverified
2	FQ-ViT (ViT-B)	Top-1 Accuracy (%)	83.31	—	Unverified
3	FQ-ViT (Swin-B)	Top-1 Accuracy (%)	82.97	—	Unverified
4	FQ-ViT (Swin-S)	Top-1 Accuracy (%)	82.71	—	Unverified
5	FQ-ViT (DeiT-B)	Top-1 Accuracy (%)	81.2	—	Unverified
6	FQ-ViT (Swin-T)	Top-1 Accuracy (%)	80.51	—	Unverified
7	FQ-ViT (DeiT-S)	Top-1 Accuracy (%)	79.17	—	Unverified
8	Xception W8A8	Top-1 Accuracy (%)	78.97	—	Unverified
9	ADLIK-MO-ResNet50-W4A4	Top-1 Accuracy (%)	77.88	—	Unverified
10	ADLIK-MO-ResNet50-W3A4	Top-1 Accuracy (%)	77.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3DCNN_VIVA_3	MAP	160,327.04	—	Unverified
2	DTQ	MAP	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OutEffHop-Bert_base	Perplexity	6.3	—	Unverified
2	OutEffHop-Bert_base	Perplexity	6.21	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	98.13	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	92.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SSD ResNet50 V1 FPN 640x640	MAP	34.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		TAR @ FAR=1e-4	95.13	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		TAR @ FAR=1e-4	96.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3DCNN_VIVA_5	All	84,809,664	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	99.8	—	Unverified