Patch Normalization Regularization

贡献：

提出了一种新的正则化方法，减少过拟合的发生，同时让神经网络具有更好的鲁棒性。

这种方法在图像和feature map 内部进行局部的permutation （置换），没改变整体的特征信息，又添加了新的变化（variance），用于训练中，提高了模型的鲁棒性，防止过拟合的发生

过拟合的定义：训练的模型适应了噪声信息，而不是去捕捉数据中隐藏的变量信息。

过拟合出现原因：

1.参数过少，不足以包含足够的信息，导致会被无关的局部信息误导。

2.数据过少，训练的模型鲁棒性太差。

即使输入的图片的局部有一些变化，但是并没有破坏图片的整体性情况下，模型应该还可以正常工作。比如图片的马赛克，虽然打码，但是人们依然可以透过模糊，猜出图片正确分类。

Patch Shuffle 的优点：

注意：椒盐噪声是指两种噪声，一种是盐噪声（salt noise）盐 = 白色(255)，另一种是胡椒噪声（pepper noise）椒 = 黑色(0)。前者是高灰度噪声，后者属于低灰度噪声。一般两种噪声同时出现，呈现在图像上就是黑白杂点。

Patch Normalization Regularization

Patch Normalization Regularization 表示原图像，（）表示PatchShuffle Transformation操作

Patch Normalization Regularization 表示伯努利分布（Bernoulli），即概率p，r=1；概率（1-p）,r=0;

Patch Normalization Regularization

将图像分割成没有重叠的数据块，大小 Patch Normalization Regularization

Patch Normalization Regularization

公式三，表示具体的permutation操作， Patch Normalization Regularization 改变的行，同理，最后边的改变列。

注意：每一个patch将会被置换 Patch Normalization Regularization 次。想象成个空格插入个苹果，你就明白了~

Patch Normalization Regularization

Patch Normalization Regularization

在整个feature map随机抽选一个feature map PS（patch shuffle）处理。对于中低层的特征，其空间结构大部分保留，PS用在这些层上来正则化training。而对于高层卷积层，PS可以让临近的像素（pixel）共享权重（weight sharing）。

Patch Normalization Regularization

Patch Normalization Regularization 的数值大小控制着Patch Shuffle所占的比重大小

损失函数的期望：

Patch Normalization Regularization

在feature map 无论怎么变，最后都是要再一次回到原来的feature map，这种consistency一直存在。

Patch Normalization Regularization 一个具体的例子