《Xception: Deep Learning with Depthwise Separable Convolutions》论文笔记

论文地址：XInception

源码地址：Tensorflow

这是一篇深度学习网络框架理论的文章，研究的点是比较热的深度，并不具体对某一任务（detection,tracking,segmentation）进行研究。

What: XIception 是Inception V3的改进版。模型将Inception V3的嵌入的卷积替换成了deepwise separable convolution。基于这种思想的卷积将 cross-channel convolution 与spatialconvolution看成是相互独立的，可以分开学习。文中将Inception 结构逐渐变化，最后扩展到极限情况得到图4. 图4的结构与deepwise separable convolution有两点不同：

（1）channel-wise spatial convolution 与1*1卷积的顺序不同，图四是先1*1然后是channel-wise spatial convolution，而deepwise separable convolution恰恰相反。当然这一点不同影响不大。

（2）是否存在非线性**函数。在Inception 结构中每个卷积后面都会跟随**函数，这一点与channel-wise spatial convolution 不同，channel-wise spatial convolution后面不接非线性**函数。这一点影响很大。

除了替换卷积方式外，XInception很大的一个不同点是改变了连接方式，以前是通过contact的方式连接，而在Xinception 中使用残差连接的方式。对比实验证明，残差连接方式可以取得更好的结果。

《Xception: Deep Learning with Depthwise Separable Convolutions》论文笔记

Why： 说到为什么提出XInception,就不得不先介绍一下Inception V3的结构。Inception V3的结构如上图1所示。提出Inception V3 是基于这样一种思想：特征的提取可以通过1*1,3*3,5*5（可看作两个3*3）,pooling等方式,但是这几种方式哪一种是最优的呢？Inception V3将这个问题留给网络自己训练解决，最后通过contact的方式把所有的特征都连接起来。基于这样一个思想，作者提出了一个最简单的Inception 的结构，如图2所示。并尝试将1*1卷积合并成一个，得到图3，更近一步，到底分成多少份？推到极限后，每个通道后面都接一个3*3卷积，于是得到图4。

deepwise separable convolution的提出又让图4更加方便实现，同时也要进一步改进——去掉非线性**。为什么要去掉非线性**？作者没有给出明确的答案，只是给出了一个可能的解释：对深特征空间，非线性**是有利的，而浅特征空间，是有害的。实验结果证明了去掉非线性的有效性。

为啥选择residual connection? 额...不知都，可能是对Inception-ResNet的一种继承,利用更深的网络进行学习，然后发现实验对比结果又非常好吧。

How: 这个网络具体怎么样实现的就不讲了，这个Tensorflow都集成好具体的包了，调用就可以了，用deepwise separable convolution 嵌入到residual network当中，思路还是很清晰的。

Result: 实验是在两个数据及上进行的，ImageNet dataset 和JFT dataset. 实验结果表明：XInception 比Inception V3的效果更好，使用residual connection 效果更好，不加非线性**函数效果更好。

《Xception: Deep Learning with Depthwise Separable Convolutions》论文笔记

相关推荐