Quantization

Quantization is a promising technique to reduce the computation cost of neural network training, which can replace high-cost floating-point numbers (e.g., float32) with low-cost fixed-point numbers (e.g., int8/int16).

Source: Adaptive Precision Training: Quantify Back Propagation in Neural Networks with Fixed-point Numbers

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1301–1325 of 4925 papers

Title	Date	Tasks	Status
AIQViT: Architecture-Informed Post-Training Quantization for Vision Transformers	Feb 7, 2025	image-classificationImage Classification	—Unverified
A Performance Analysis of You Only Look Once Models for Deployment on Constrained Computational Edge Devices in Drone Applications	Feb 6, 2025	NVIDIA Jetson Orin Nanoobject-detection	—Unverified
KVTuner: Sensitivity-Aware Layer-wise Mixed Precision KV Cache Quantization for Efficient and Nearly Lossless LLM Inference	Feb 6, 2025	Mathematical ReasoningQuantization	CodeCode Available
TQ-DiT: Efficient Time-Aware Quantization for Diffusion Transformers	Feb 6, 2025	Computational EfficiencyQuantization	—Unverified
Exploring Model Invariance with Discrete Search for Ultra-Low-Bit Quantization	Feb 6, 2025	Quantization	—Unverified
Asymptotic Analysis of One-bit Quantized Box-Constrained Precoding in Large-Scale Multi-User Systems	Feb 5, 2025	Quantization	—Unverified
HACK: Homomorphic Acceleration via Compression of the Key-Value Cache for Disaggregated LLM Inference	Feb 5, 2025	Language ModelingLanguage Modelling	—Unverified
SensorChat: Answering Qualitative and Quantitative Questions during Long-Term Multimodal Sensor Interactions	Feb 5, 2025	QuantizationQuestion Answering	—Unverified
BRIDLE: Generalized Self-supervised Learning with Quantization	Feb 4, 2025	image-classificationImage Classification	CodeCode Available
Survey of Quantization Techniques for On-Device Vision-based Crack Detection	Feb 4, 2025	QuantizationStructural Health Monitoring	—Unverified
Unlocking Efficient Large Inference Models: One-Bit Unrolling Tips the Scales	Feb 4, 2025	Language ModelingLanguage Modelling	—Unverified
Continuous Autoregressive Modeling with Stochastic Monotonic Alignment for Speech Synthesis	Feb 3, 2025	QuantizationSpeech Synthesis	—Unverified
QLESS: A Quantized Approach for Data Valuation and Selection in Large Language Model Fine-Tuning	Feb 3, 2025	Data ValuationLanguage Modeling	CodeCode Available
Choose Your Model Size: Any Compression by a Single Gradient Descent	Feb 3, 2025	Quantization	—Unverified
An Inquiry into Datacenter TCO for LLM Inference with FP8	Feb 3, 2025	Language ModelingLanguage Modelling	—Unverified
Nearly Lossless Adaptive Bit Switching	Feb 3, 2025	Quantization	CodeCode Available
Huff-LLM: End-to-End Lossless Compression for Efficient LLM Inference	Feb 2, 2025	Model CompressionQuantization	—Unverified
On Noncommutative Quantum Mechanics and the Black-Scholes Model	Feb 2, 2025	Quantization	—Unverified
Structural Latency Perturbation in Large Language Models Through Recursive State Induction	Feb 2, 2025	Computational EfficiencyQuantization	—Unverified
Enhancing Field-Oriented Control of Electric Drives with Tiny Neural Network Optimized for Micro-controllers	Feb 1, 2025	Quantization	—Unverified
MQuant: Unleashing the Inference Potential of Multimodal Large Language Models via Full Static Quantization	Feb 1, 2025	Quantization	—Unverified
LLM-based Affective Text Generation Quality Based on Different Quantization Values	Jan 31, 2025	GPUQuantization	—Unverified
Fully Distributed and Quantized Algorithm for MPC-based Autonomous Vehicle Platooning Optimization	Jan 31, 2025	Model Predictive ControlQuantization	—Unverified
CodeBrain: Impute Any Brain MRI via Instance-specific Scalar-quantized Codes	Jan 30, 2025	ImputationQuantization	—Unverified
Mixed-Precision Graph Neural Quantization for Low Bit Large Language Models	Jan 30, 2025	Graph Neural NetworkQuantization	—Unverified

Show:10 25 50

← PrevPage 53 of 197Next →

All datasets ImageNet CIFAR-10 Wiki-40B AgeDB-30 CFP-FP COCO (Common Objects in Context)IJB-B IJB-C Knowledge-based:LFW

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	FQ-ViT (ViT-L)	Top-1 Accuracy (%)	85.03	—	Unverified
2	FQ-ViT (ViT-B)	Top-1 Accuracy (%)	83.31	—	Unverified
3	FQ-ViT (Swin-B)	Top-1 Accuracy (%)	82.97	—	Unverified
4	FQ-ViT (Swin-S)	Top-1 Accuracy (%)	82.71	—	Unverified
5	FQ-ViT (DeiT-B)	Top-1 Accuracy (%)	81.2	—	Unverified
6	FQ-ViT (Swin-T)	Top-1 Accuracy (%)	80.51	—	Unverified
7	FQ-ViT (DeiT-S)	Top-1 Accuracy (%)	79.17	—	Unverified
8	Xception W8A8	Top-1 Accuracy (%)	78.97	—	Unverified
9	ADLIK-MO-ResNet50-W4A4	Top-1 Accuracy (%)	77.88	—	Unverified
10	ADLIK-MO-ResNet50-W3A4	Top-1 Accuracy (%)	77.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3DCNN_VIVA_3	MAP	160,327.04	—	Unverified
2	DTQ	MAP	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OutEffHop-Bert_base	Perplexity	6.3	—	Unverified
2	OutEffHop-Bert_base	Perplexity	6.21	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	98.13	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	92.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SSD ResNet50 V1 FPN 640x640	MAP	34.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		TAR @ FAR=1e-4	95.13	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		TAR @ FAR=1e-4	96.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3DCNN_VIVA_5	All	84,809,664	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	99.8	—	Unverified