论文总结:Quantizing deep convolutional networks for efficient inference: A whitepaper
论文地址:https://arxiv.org/pdf/1806.08342.pdf
主要内容
这篇论文是篇介绍量化的综述,对量化的动机、方法等进行了较为详细的描述。
- 量化器的设计。作者介绍了三种量化方案:一致仿射量化器、均匀对称量化器和随机量化器。
- 模型量化的方法。大致可以分为两类:Post Training Quantization(训练后量化)和 Quantization Aware Training(量化感知训练,即训练时量化)。
- 作者还通过实验对比各种量化方法的优劣,以及其他(没看)。
1.1 Uniform Affine Quantizer
假设把范围为的浮点型变量量化到范围为(8bit精度,N_l=256),我们需要2个参数:量化尺度和零点。尺度决定量化步长,浮点数0映射到零点,且无误差(应该是通过round操作对零点进行微调,确保精确量化)。
量化过程如下:
逆量化:
1.2 Uniform symmetric quantizer
均匀对称量化器是一致均匀量化器的简化版本,即零点的特殊情况。量化过程为:
逆量化:
1.3 Stochastic quantizer
随机量化器则是加入了一个噪声:
2.1 Post Training Quantization
训练后量化可分为只量化权重、对权重和**值均量化。作者通过实验发现
非对称的逐通道量化的精度最高,且在许多网络的精度都接近浮点型网络。
浮点型:
只量化权重:
量化权重和**值:
通过上述实验可以得出如下结论:
- 非对称的逐通道量化的精度最高;
- **值的量化基本不影响网络精度;
- 模型参数越多,对于量化的鲁棒性越高。
3.2 Quantization Aware Training
训练后量化的精度高于训练时量化。
作者还给出了基于TensorFlow的量化步骤:
- 使用预训练好的模型(推荐),或者从头训练;
- 利用tf.contrib.quantize命令添加量化运算;
- 训练模型,得到包含量化信息的模型;
- 利用tf.contrib.lite.toco convert进行模型转换;
- 利用TFLite interpreter执行模型。
其他
作者还给出了量化BN层的策略以及大量实验,以后有机会再细看。
一些结论
- 对于训练后量化,可以使用对称逐通道量化作为开始,若精度下降,再考虑微调(在浮点型的checkpoint上继续训练)。
- 训练时量化的精度与浮点型模型接近,8bit量化时精度差距在5%以内。