关于深度学习移动化的思考

一、深度学习现状的瓶颈：

1、计算量巨大，消耗大量的计算资源

2、模型内存占用大，消耗大量内存资源

3、模型存储空间大，消耗大量存储空间

4、只能在云端利用其大量的资源进行模型训练

5、需要移动设备连接云端，不连接即无法使用其效果。

6、移动端资源（CPU、GPU、内存）和云端的差距过大，无法进行类似云端的大规模分布式训练。

总结：大模型耗费大量的资源（计算、内存、存储、电）

二、移动端优势：

1、便携，轻量

2、实时性强

3、无需连接云，本地使用。

4、移动端产品众多，贴近生活。

总结：移动+轻量化 = 未来AI

向移动端发展的手段。

对大而复杂的模型进行压缩。

三、模型压缩：

1、 Prunes the network：修枝剪叶，只保留一些重要的连接；

用于稀疏连接的重量级修剪，剪去权值低的，也就是去掉大部分几乎不可能发生的。

迭代地修剪和重新训练

用L1正则化的通道级修剪

案例：

network pruning 技术已经被广泛应用到CNN模型的压缩中，通过剪枝达到了state-of-the-art 的结果，而且没有减少模型的准确率；

左边的pruning阶段可以看出，其过程是：

1）、正常的训练一个网络；

2）、把一些权值很小的连接进行剪枝：通过一个阈值来剪枝；

3）、retrain 这个剪完枝的稀疏连接的网络；

进一步压缩，对于weight的index，不再存储绝对位置的index，而是存储跟上一个有效weight的相对位置，这样index的字节数就可以被压缩了。

卷积层用 8bits 来保存这个相对位置的index，在全连接层中用 5bits 来保存；

用3bits保存相对位置为例子，当相对位置超过8（3bits）的时候，需要在相对位置为8的地方填充一个0，防止溢出；

2、 Quantize the weights：训练量化，通过权值量化来共享一些weights；

假设有一个层，它有4个输入神经元，4个输出神经元，那么它的权值就是4*4的矩阵；图中左上是weight矩阵，左下是gradient矩阵。可以看到，图中作者把 weight矩阵聚类成了4个cluster（由4种颜色表示）。属于同一类的weight共享同一个权值大小（看中间的白色矩形部分，每种颜色权值对应一个clusterindex）；由于同一cluster的weight共享一个权值大小，所以我们只需要存储权值的index 例子中是4个cluster，所以原来每个weight需要32bits，现在只需要2bits，非常简单的压缩了16倍。而在权值更新的时候，所有的gradients按照weight矩阵的颜色来分组，同一组的gradient做一个相加的操作，得到是sum乘上learning rate再减去共享的centroids，得到一个fine-tuned centroids，这个过程看上图，画的非常清晰了。

对于AlexNet，卷积层quantization到8bits（256个共享权值），而全连接层quantization到5bits（32个共享权值），并且这样压缩之后的网络没有降低准确率

用非常简单的 K-means，对每一层都做一个weight的聚类，属于同一个 cluster 的就共享同一个权值大小。注意的一点：跨层的weight不进行共享权值；

3、 Huffman coding：通过霍夫曼编码进一步压缩；

Huffman Coding 是一种非常常用的无损编码技术，它按照符号出现的概率来进行变长编码。

上图的权重以及权值索引分布来自于AlexNet的最后一个全连接层。

可以看出，其分布是非均匀的、双峰形状，因此我们可以利用Huffman编码来对其进行处理，最终可以进一步使的网络的存储减少20%~30%。

四、压缩总结：

1、Pruning：把连接数减少到原来的 1/13~1/9；

2、 Quantization：每一个连接从原来的 32bits 减少到 5bits；

3、Huffman coding：网络的存储减少20%~30%

五、设计较小的CNN架构设计

1、 SqueezeNet

SqueezeNet设计目标不是为了得到最佳的CNN识别精度，而是希望简化网络复杂度，同时达到public网络的识别精度。

三种原则：

替换3x3的卷积kernel为1x1的卷积kernel

减少输入3x3卷积的inputfeature map数量

减少pooling

压缩器：具有50x较少参数的AlexNet-level精度和< 0.5MB模型大小

2、 MobileNet

高效的卷积神经网络用于移动视觉应用

速度、模型大小上做了优化，并保持精度基本不变。

采用了depthwise separable convolutions(L. Sifre. Rigid-motionscattering for image classification, 2014. 1, 3) 的思想，在用3x3（或更大尺寸）卷积的时候并不对通道进行融合，而是采用depthwise(或叫channelwise)和1x1 pointwise的方法进行分解卷积。

mobilenet引入WidthMultiplier和Resolution Multiplier分别对网络进行瘦身和降低分辨率。

3、 ShuffleNet

一种非常高效的移动设备卷积神经网络

图a是一般的group convolution的实现效果。其造成的问题是，输出通道只和输入的某些通道有关，导致全局信息流通不畅，网络表达能力不足。

图b就是本文的方法啦。即通过均匀排列，把groupconvolution后的feature map按通道进行均匀混合，这样就可以更好的获取全局信息了。

图c是操作后的等价效果图。

ShuffleNet同样采用了类似于ResNet一样的模块化设计

图a是之前的一种ResNet网络结构模块，其参考了“MobileNet”的实现。其中的DWConv指的是 depthwise convolution。

图b是本文给出的一种模块(输出前后feature的size不变)，相比于图a,只是将第一个1x1卷积改成了group convolution，同时后续增加通道 shuffle。

图c是本文给出的另一种模块(输出前后feature的size变小，但通道数增加)，主要是为了应对下采样问题。注意，最后的合并操作由原来的 “Add” 变成了 “Concat”, 目的是为了增加通道数。

原始版本的ShuffleNet的结构如下：

不同配置下的网络性能对比图：

ShuffleNet 同之前一些网络的对比效果：

相比Xception和Mobilenet，ShuffleNet都获得了性能上的提升，至于速度带来的提升则不是很明显。

ShufflleNet的主要改进就只是增强了全局信息的流通。

六、深度学习框架：

Caffe Caffe2 MXNet Tensorflow Torch

NCNN、MDL

Tensorflow Lite

CoreML

       从训练到推理



优化卷积计算：

       利用im2col-based进行选择性的卷积

       用于深度神经网络的内存高效卷积



       浮点运算定点化：

七、 Android端深度学习框架

NCNN vs MDL：

FrameWork

单线程

四线程

内存

NCNN

370ms

200ms

25M

MDL

360ms

190ms

30M

       TensorflowLite：

Quantize MobileNet

Float Mobilenet

85ms

400ms

八、   iOS 上的深度学习

Core ML：

扩展性弱，仅支持IOS11及以上



       MPSCNN：

       充分利用GPU资源，不用抢占CPU

利用Metal开发新的层很方便

MPSCNN：

MPSImage

CNN图像的布局，宽度为3，高度为2。

在iPhone6s上MPSCNN VS NCNN ：

FrameWork

Time

NCNN

110ms

MPSCNN

45ms

九、移动深度学习与云上的深度学习结合

1、大规模的训练需要放在云上，压缩优化后转移到移动端。

2、部分小模型的计算即可在移动端进行计算，无需上云。

3、实时性强的需要放在移动端

4、网络要求严格的模型，放在移动端，防止断网造成的不必要损失。

十、边缘计算推进移动深度学习

1、推进边缘计算的设备主要是移动CPU，以高通、联发科、inter Y/M系列移动CPU为代表。

2、移动CPU更新换代快，每年一次大的更新。

3、移动CPU处理器性能直追PC的CPU

4、移动CPU有低功耗的特点，节能。

5、现移动GPU已经逐渐走向成熟，从Apple的A11性能可以看出。

这是2017年旗舰移动CPU对比，骁龙VS Apple A11

关于深度学习移动化的思考

十一、参考资料：

http://blog.csdn.net/shuzfan/article/details/77141425

https://arxiv.org/pdf/1704.04861.pdf

https://arxiv.org/pdf/1510.00149.pdf

参考来自网络博客和以上论文。

FrameWork	单线程	四线程	内存
NCNN	370ms	200ms	25M
MDL	360ms	190ms	30M

关于深度学习移动化的思考

一、 深度学习现状的瓶颈：

二、 移动端优势：

三、 模型压缩：

四、 压缩总结：

五、 设计较小的CNN架构设计

六、 深度学习 框架：

七、 Android端深度学习框架

八、 iOS 上的深度学习

九、 移动深度学习与云上的深度学习结合

十、 边缘计算推进移动深度学习

十一、 参考资料：

相关推荐

一、深度学习现状的瓶颈：

二、移动端优势：

三、模型压缩：

四、压缩总结：

五、设计较小的CNN架构设计

六、深度学习框架：

九、移动深度学习与云上的深度学习结合

十、边缘计算推进移动深度学习

十一、参考资料：