Quantization

Quantization is a promising technique to reduce the computation cost of neural network training, which can replace high-cost floating-point numbers (e.g., float32) with low-cost fixed-point numbers (e.g., int8/int16).

Source: Adaptive Precision Training: Quantify Back Propagation in Neural Networks with Fixed-point Numbers

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 4925 papers

Title	Date	Tasks	Status	Hype	Score
Dataset Quantization	Aug 21, 2023	Dataset Distillationobject-detection	CodeCode Available	2	5
Practical and Asymptotically Optimal Quantization of High-Dimensional Vectors in Euclidean Space for Approximate Nearest Neighbor Search	Sep 16, 2024	Quantization	CodeCode Available	2	5
PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution	Nov 26, 2024	DenoisingImage Super-Resolution	CodeCode Available	2	5
PrefixQuant: Eliminating Outliers by Prefixed Tokens for Large Language Models Quantization	Oct 7, 2024	Common Sense ReasoningQuantization	CodeCode Available	2	5
Optimizing Edge AI: A Comprehensive Survey on Data, Model, and System Strategies	Jan 4, 2025	Edge-computingKnowledge Distillation	CodeCode Available	2	5
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models	Aug 25, 2023	Common Sense ReasoningComputational Efficiency	CodeCode Available	2	5
On-Device Training Under 256KB Memory	Jun 30, 2022	Lifelong learningQuantization	CodeCode Available	2	5
OstQuant: Refining Large Language Model Quantization with Orthogonal and Scaling Transformations for Better Distribution Fitting	Jan 23, 2025	Language ModelingLanguage Modelling	CodeCode Available	2	5
Neural Network Compression Framework for fast model inference	Feb 20, 2020	BinarizationCPU	CodeCode Available	2	5
D2GV: Deformable 2D Gaussian Splatting for Video Representation in 400FPS	Mar 7, 2025	DenoisingQuantization	CodeCode Available	2	5
MotionLLaMA: A Unified Framework for Motion Synthesis and Comprehension	Nov 26, 2024	Language ModelingLanguage Modelling	CodeCode Available	2	5
NeuZip: Memory-Efficient Training and Inference with Dynamic Compression of Neural Networks	Oct 28, 2024	Quantization	CodeCode Available	2	5
Palu: Compressing KV-Cache with Low-Rank Projection	Jul 30, 2024	GPUQuantization	CodeCode Available	2	5
QuIP: 2-Bit Quantization of Large Language Models With Guarantees	Jul 25, 2023	Quantization	CodeCode Available	2	5
MGVQ: Could VQ-VAE Beat VAE? A Generalizable Tokenizer with Multi-group Quantization	Jul 10, 2025	2kQuantization	CodeCode Available	2	5
Atom: Low-bit Quantization for Efficient and Accurate LLM Serving	Oct 29, 2023	GPUQuantization	CodeCode Available	2	5
MC-MoE: Mixture Compressor for Mixture-of-Experts LLMs Gains More	Oct 8, 2024	Mixture-of-ExpertsQuantization	CodeCode Available	2	5
Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding	Feb 3, 2025	Quantization	CodeCode Available	2	5
MAexp: A Generic Platform for RL-based Multi-Agent Exploration	Apr 19, 2024	DiversityMulti-agent Reinforcement Learning	CodeCode Available	2	5
MAUVE Scores for Generative Models: Theory and Practice	Dec 30, 2022	Quantization	CodeCode Available	2	5
MobileQuant: Mobile-friendly Quantization for On-device Language Models	Aug 25, 2024	Quantization	CodeCode Available	2	5
LoRANN: Low-Rank Matrix Factorization for Approximate Nearest Neighbor Search	Oct 24, 2024	ClusteringGPU	CodeCode Available	2	5
LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models	Oct 12, 2023	Natural Language UnderstandingQuantization	CodeCode Available	2	5
Lossless Compression of Vector IDs for Approximate Nearest Neighbor Search	Jan 16, 2025	Quantization	CodeCode Available	2	5
LLM-FP4: 4-Bit Floating-Point Quantized Transformers	Oct 25, 2023	Common Sense ReasoningQuantization	CodeCode Available	2	5
A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation	Oct 2, 2024	Image GenerationQuantization	CodeCode Available	2	5
LightGaussian: Unbounded 3D Gaussian Compression with 15x Reduction and 200+ FPS	Nov 28, 2023	Knowledge DistillationNeRF	CodeCode Available	2	5
Compressing Large Language Models using Low Rank and Low Precision Decomposition	May 29, 2024	Quantization	CodeCode Available	2	5
Low-Rank Quantization-Aware Training for LLMs	Jun 10, 2024	GPUparameter-efficient fine-tuning	CodeCode Available	2	5
Model-Preserving Adaptive Rounding	May 29, 2025	modelQuantization	CodeCode Available	2	5
LoQT: Low-Rank Adapters for Quantized Pretraining	May 26, 2024	GPULanguage Modeling	CodeCode Available	2	5
Compressing Volumetric Radiance Fields to 1 MB	Nov 29, 2022	Model CompressionNeRF	CodeCode Available	2	5
LeanVec: Searching vectors faster by making them fit	Dec 26, 2023	Cross-Modal RetrievalDimensionality Reduction	CodeCode Available	2	5
Adapting Large Language Models by Integrating Collaborative Semantics for Recommendation	Nov 15, 2023	QuantizationRecommendation Systems	CodeCode Available	2	5
CompGS: Smaller and Faster Gaussian Splatting with Vector Quantization	Nov 30, 2023	3DGSNeRF	CodeCode Available	2	5
Compact 3D Gaussian Representation for Radiance Field	Nov 22, 2023	3DGSModel Compression	CodeCode Available	2	5
KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches	Jul 1, 2024	Book summarizationQuantization	CodeCode Available	2	5
MBQ: Modality-Balanced Quantization for Large Vision-Language Models	Dec 27, 2024	GPUQuantization	CodeCode Available	2	5
MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training	May 31, 2023	Language ModellingQuantization	CodeCode Available	2	5
MGVQ: Could VQ-VAE Beat VAE? A Generalizable Tokenizer with Multi-group Quantization	Jul 14, 2025	2kImage Generation	CodeCode Available	2	5
Any-Precision LLM: Low-Cost Deployment of Multiple, Different-Sized LLMs	Feb 16, 2024	Quantization	CodeCode Available	2	5
AdaBM: On-the-Fly Adaptive Bit Mapping for Image Super-Resolution	Apr 4, 2024	Image Super-ResolutionQuantization	CodeCode Available	2	5
I-ViT: Integer-only Quantization for Efficient Vision Transformer Inference	Jul 4, 2022	Quantization	CodeCode Available	2	5
any4: Learned 4-bit Numeric Representation for LLMs	Jul 7, 2025	GPUGSM8K	CodeCode Available	2	5
INT-FlashAttention: Enabling Flash Attention for INT8 Quantization	Sep 25, 2024	GPUQuantization	CodeCode Available	2	5
Imp: Highly Capable Large Multimodal Models for Mobile Devices	May 20, 2024	QuantizationVisual Question Answering	CodeCode Available	2	5
Jetfire: Efficient and Accurate Transformer Pretraining with INT8 Data Flow and Per-Block Quantization	Mar 19, 2024	Quantization	CodeCode Available	2	5
LiDAR-PTQ: Post-Training Quantization for Point Cloud 3D Object Detection	Jan 29, 2024	3D Object DetectionAutonomous Vehicles	CodeCode Available	2	5
Model Quantization and Hardware Acceleration for Vision Transformers: A Comprehensive Survey	May 1, 2024	Quantization	CodeCode Available	2	5
Harmonizing Visual Representations for Unified Multimodal Understanding and Generation	Mar 27, 2025	Image GenerationQuantization	CodeCode Available	2	5

Show:10 25 50

← PrevPage 4 of 99Next →

All datasets ImageNet CIFAR-10 Wiki-40B AgeDB-30 CFP-FP COCO (Common Objects in Context)IJB-B IJB-C Knowledge-based:LFW

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	FQ-ViT (ViT-L)	Top-1 Accuracy (%)	85.03	—	Unverified
2	FQ-ViT (ViT-B)	Top-1 Accuracy (%)	83.31	—	Unverified
3	FQ-ViT (Swin-B)	Top-1 Accuracy (%)	82.97	—	Unverified
4	FQ-ViT (Swin-S)	Top-1 Accuracy (%)	82.71	—	Unverified
5	FQ-ViT (DeiT-B)	Top-1 Accuracy (%)	81.2	—	Unverified
6	FQ-ViT (Swin-T)	Top-1 Accuracy (%)	80.51	—	Unverified
7	FQ-ViT (DeiT-S)	Top-1 Accuracy (%)	79.17	—	Unverified
8	Xception W8A8	Top-1 Accuracy (%)	78.97	—	Unverified
9	ADLIK-MO-ResNet50-W4A4	Top-1 Accuracy (%)	77.88	—	Unverified
10	ADLIK-MO-ResNet50-W3A4	Top-1 Accuracy (%)	77.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3DCNN_VIVA_3	MAP	160,327.04	—	Unverified
2	DTQ	MAP	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OutEffHop-Bert_base	Perplexity	6.3	—	Unverified
2	OutEffHop-Bert_base	Perplexity	6.21	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	98.13	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	92.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SSD ResNet50 V1 FPN 640x640	MAP	34.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		TAR @ FAR=1e-4	95.13	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		TAR @ FAR=1e-4	96.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3DCNN_VIVA_5	All	84,809,664	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		Accuracy	99.8	—	Unverified