《Xception: Deep Learning with Depthwise Separable Convolutions》论文笔记

论文地址:XInception
源码地址:Tensorflow
这是一篇深度学习网络框架理论的文章,研究的点是比较热的深度,并不具体对某一任务(detection,tracking,segmentation)进行研究。
What:    XIception 是Inception V3的改进版。模型将Inception V3的嵌入的卷积替换成了deepwise separable convolution。基于这种思想的卷积将 cross-channel convolution 与spatialconvolution看成是相互独立的,可以分开学习。文中将Inception 结构逐渐变化,最后扩展到极限情况得到图4. 图4的结构与deepwise separable convolution有两点不同:
(1)channel-wise spatial convolution 与1*1卷积的顺序不同,图四是先1*1然后是channel-wise spatial convolution,而deepwise separable convolution恰恰相反。当然这一点不同影响不大。
(2)是否存在非线性**函数。在Inception 结构中每个卷积后面都会跟随**函数,这一点与channel-wise spatial  convolution 不同,channel-wise spatial convolution后面不接非线性**函数。这一点影响很大。

除了替换卷积方式外,XInception很大的一个不同点是改变了连接方式,以前是通过contact的方式连接,而在Xinception 中使用残差连接的方式。对比实验证明,残差连接方式可以取得更好的结果。
《Xception: Deep Learning with Depthwise Separable Convolutions》论文笔记《Xception: Deep Learning with Depthwise Separable Convolutions》论文笔记
《Xception: Deep Learning with Depthwise Separable Convolutions》论文笔记《Xception: Deep Learning with Depthwise Separable Convolutions》论文笔记
Why:    说到为什么提出XInception,就不得不先介绍一下Inception V3的结构。Inception V3的结构如上图1所示。提出Inception V3 是基于这样一种思想:特征的提取可以通过1*1,3*3,5*5(可看作两个3*3),pooling等方式,但是这几种方式哪一种是最优的呢?Inception V3将这个问题留给网络自己训练解决,最后通过contact的方式把所有的特征都连接起来。基于这样一个思想,作者提出了一个最简单的Inception 的结构,如图2所示。并尝试将1*1卷积合并成一个,得到图3,更近一步,到底分成多少份?推到极限后,每个通道后面都接一个3*3卷积,于是得到图4。
deepwise separable convolution的提出又让图4更加方便实现,同时也要进一步改进——去掉非线性**。为什么要去掉非线性**?作者没有给出明确的答案,只是给出了一个可能的解释:对深特征空间,非线性**是有利的,而浅特征空间,是有害的。实验结果证明了去掉非线性的有效性。

为啥选择residual connection? 额...不知都,可能是对Inception-ResNet的一种继承,利用更深的网络进行学习,然后发现实验对比结果又非常好吧。

How:    这个网络具体怎么样实现的就不讲了,这个Tensorflow都集成好具体的包了,调用就可以了,用deepwise separable convolution 嵌入到residual network当中,思路还是很清晰的。

Result:     实验是在两个数据及上进行的,ImageNet dataset 和JFT dataset. 实验结果表明:XInception 比Inception V3的效果更好,使用residual connection 效果更好,不加非线性**函数效果更好。
    《Xception: Deep Learning with Depthwise Separable Convolutions》论文笔记
《Xception: Deep Learning with Depthwise Separable Convolutions》论文笔记
《Xception: Deep Learning with Depthwise Separable Convolutions》论文笔记