Patch Normalization Regularization
贡献:
提出了一种新的正则化方法,减少过拟合的发生,同时让神经网络具有更好的鲁棒性。
这种方法在图像和feature map 内部进行局部的permutation (置换),没改变整体的特征信息,又添加了新的变化(variance),用于训练中,提高了模型的鲁棒性,防止过拟合的发生
过拟合
过拟合的定义:训练的模型适应了噪声信息,而不是去捕捉数据中隐藏的变量信息。
过拟合出现原因:
1.参数过少,不足以包含足够的信息,导致会被无关的局部信息误导。
2.数据过少,训练的模型鲁棒性太差。
即使输入的图片的局部有一些变化,但是并没有破坏图片的整体性情况下,模型应该还可以正常工作。比如图片的马赛克,虽然打码,但是人们依然可以透过模糊,猜出图片正确分类。
Patch Shuffle 的优点:
- 仅消耗极少的内存和时间。不改变学习策略的情况下, 可以应用于各种神经网络当中。
- 现有正则化方法的一个补充。在四种代表性的分类数据中,与其他正则化方法结合使用,PatchShuffle进一步提升了分类的精度。
- 提升了CNNs对噪声的鲁棒性。
注意:椒盐噪声是指两种噪声,一种是盐噪声(salt noise)盐 = 白色(255),另一种是胡椒噪声(pepper noise)椒 = 黑色(0)。前者是高灰度噪声,后者属于低灰度噪声。一般两种噪声同时出现,呈现在图像上就是黑白杂点。
PatchShuffle Refularization
表示原图像,()表示PatchShuffle Transformation操作
表示伯努利分布(Bernoulli),即概率p,r=1;概率(1-p),r=0;
将图像分割成没有重叠的数据块,大小
公式三,表示具体的permutation操作,改变的行,同理,最后边的改变列。
注意:每一个patch将会被置换次。想象成个空格插入个苹果,你就明白了~
除了将ParchShuffle应用于图像,我们还可以将其应用于feature map。
在整个feature map随机抽选一个feature map PS(patch shuffle)处理。对于中低层的特征,其空间结构大部分保留,PS用在这些层上来正则化training。而对于高层卷积层,PS可以让临近的像素(pixel)共享权重(weight sharing)。
训练和推理
的数值大小控制着Patch Shuffle所占的比重大小
损失函数的期望:
在feature map 无论怎么变,最后都是要再一次回到原来的feature map,这种consistency一直存在。
一个具体的例子