论文总结：Quantizing deep convolutional networks for efficient inference: A whitepaper

论文地址：https://arxiv.org/pdf/1806.08342.pdf

主要内容

这篇论文是篇介绍量化的综述，对量化的动机、方法等进行了较为详细的描述。

量化器的设计。作者介绍了三种量化方案：一致仿射量化器、均匀对称量化器和随机量化器。
模型量化的方法。大致可以分为两类：Post Training Quantization(训练后量化)和 Quantization Aware Training(量化感知训练，即训练时量化)。
作者还通过实验对比各种量化方法的优劣，以及其他(没看)。

1.1 Uniform Affine Quantizer

假设把范围为 $[X_{min},X_{max}]$ 的浮点型变量量化到范围为 $[0,N_{l-1}]的整型值$ (8bit精度，N_l=256)，我们需要2个参数：量化尺度 $\Delta$ 和零点 $z$ 。尺度决定量化步长，浮点数0映射到零点，且无误差(应该是通过round操作对零点进行微调，确保精确量化)。
量化过程如下：
论文总结：Quantizing deep convolutional networks for efficient inference: A whitepaper
逆量化：

1.2 Uniform symmetric quantizer

均匀对称量化器是一致均匀量化器的简化版本，即零点 $z=0$ 的特殊情况。量化过程为：
论文总结：Quantizing deep convolutional networks for efficient inference: A whitepaper
逆量化：

1.3 Stochastic quantizer

随机量化器则是加入了一个噪声：
论文总结：Quantizing deep convolutional networks for efficient inference: A whitepaper

2.1 Post Training Quantization

训练后量化可分为只量化权重、对权重和**值均量化。作者通过实验发现
非对称的逐通道量化的精度最高，且在许多网络的精度都接近浮点型网络。
浮点型：
论文总结：Quantizing deep convolutional networks for efficient inference: A whitepaper
只量化权重：

量化权重和**值：

通过上述实验可以得出如下结论：

非对称的逐通道量化的精度最高；
**值的量化基本不影响网络精度；
模型参数越多，对于量化的鲁棒性越高。

3.2 Quantization Aware Training

训练后量化的精度高于训练时量化。
作者还给出了基于TensorFlow的量化步骤：

使用预训练好的模型(推荐)，或者从头训练；
利用tf.contrib.quantize命令添加量化运算；
训练模型，得到包含量化信息的模型；
利用tf.contrib.lite.toco convert进行模型转换；
利用TFLite interpreter执行模型。

其他

作者还给出了量化BN层的策略以及大量实验，以后有机会再细看。

一些结论

对于训练后量化，可以使用对称逐通道量化作为开始，若精度下降，再考虑微调(在浮点型的checkpoint上继续训练)。
训练时量化的精度与浮点型模型接近，8bit量化时精度差距在5％以内。