Leveraging Filter Correlations for Deep Model Compression论文笔记

论文地址:http://arxiv.org/abs/1811.10559
github地址:无

本文于18年发表,提出了基于filter相关性的模型压缩方法。其特点是在建立相关性系数后对相关性强的filter进一步增强相关性,从而降低了filter剪枝后的损失。

Motivation

以往的基于重要性指标的剪枝方法没有充分考虑filter之间的冗余,仅考虑filter的重要程度,因此存在重要但冗余的filter不会被剪枝,从而在压缩冗余上做不到最优性。因此,本文提出基于filter相关性的剪枝方法提升网络压缩率。

Methods

本文提出基于filter相关性系数的迭代式剪枝过程。其框架图如图所示:
Leveraging Filter Correlations for Deep Model Compression论文笔记
具体流程:Episode Selection阶段逐层计算任意两个filter的相关系数,将相关系数作为每对filter的重要性指标,相关系数越趋于0,则越重要,线性相关度越低;越趋于±1则越不重要,filter之间线性相关度越高。每层抽取出N个最不重要的filter对,构成第t次迭代剪枝的episode StS_t。在Optimization阶段,在损失函数中加入正则化项。
Leveraging Filter Correlations for Deep Model Compression论文笔记
C(θ)C(\theta)为损失函数,CStC_{S_t}为正则化项,用于提高StS_t中filter对的相关系数,从而减少剪掉每对filter其中一个filter后的信息损失。CStC_{S_t}表达式如下:
Leveraging Filter Correlations for Deep Model Compression论文笔记
其中ρXY\rho_{XY}CStC_{S_t}中filter对的皮尔森系数,可推得当CStC_{S_t}减小时,指数项的相关系数增大,即达到提高相关性的作用。
Discard N Filters:该阶段从CStC_{S_t}中选取前N个不重要的filter对,剪去每对中的任意一个,得到剪枝后的网络。

之后进行微调,在可允许的最大误差范围内反复循环上述过程,达到最大程度的压缩。

Experiment

本文从分类和检测两个任务检验方法的有效性。对于分类模型,选用LeNet-5,VGG-16,ResNet-50, 56;对于检测,选用Faster-RCNN和SSD网络。
GPU:GTX 1080 Ti
λ\lambda(正则化前的超参):1

Results

Leveraging Filter Correlations for Deep Model Compression论文笔记
Leveraging Filter Correlations for Deep Model Compression论文笔记
Leveraging Filter Correlations for Deep Model Compression论文笔记
Leveraging Filter Correlations for Deep Model Compression论文笔记
Leveraging Filter Correlations for Deep Model Compression论文笔记

Thoughts

这篇我觉得是基于重要性指标的剪枝方法的补充,因为大部分剪枝算法计算的是其重要性,无论是最简单的L1,L2Norm还是最近的HRank,其计算重要性指标时均未考虑重要的滤波器可能具有高度的相关性,这也是另一种冗余。因此,该方法可以和其他剪枝方法相结合,进行二次剪枝,可能能达到更高的压缩率。