关于Intriguing properties of neural networks的理解

这是有关神经网络的对抗样本的首篇文章，Szegedy等人发现了神经网络的一些（两个）有趣的性质。
第一个是关于高维神经网络的神经元的含义问题，先前的一些工作认为深度神经网络的神经元都代表着某一个特征，因此他们寻找能够最大**某一个特定神经元的样本集合。而他们的实验发现，通过寻找最大化**某个特定神经元的方法也许并没有真正找到本质的信息。因为即便是对于某一个隐层的所有神经元的线性加权进行最大化**，也同样会对一组图片表现出相近的语义亲和性，并且，这个发现在不同的数据集上得到了验证。
我们求解如下问题来找到最大化**该神经元 $ϕ (x)$ 的样本：

x^{'} = \arg max_{x \in I} ⟨ ϕ (x), e_{i} ⟩

关于Intriguing properties of neural networks的理解

其中

e_{i}

对应隐层第

i

个神经元的自然基向量

e_{i} = (0, . . ., 1, . . .0)

。
如果我们选择该层神经元的随机线性组合进行最大化：

x^{'} = \arg max_{x \in I} ⟨ ϕ (x), v ⟩

发现得到了相似的结果，这说明也许是该隐层划分的空间，而不是单个的神经元包含了语义的信息。
关于这个进一步的解释我也并不了解，因为我们真正感兴趣的是第二个性质，对抗样本的存在。对抗样本是指对原样本产生一些微小的扰动（甚至人眼都可能无法察觉），然而分类器却产生了完全不一样的结果，甚至以高置信度错误分类。
作者通过求解以下优化问题得到对抗样本：

min c | r | + l o s s_{f} (x + r, l)

其中

l o s s_{f}

是神经网络对应的损失函数，

l

是错误分类的类别标记，即

f (x + r) = l, f (x) \neq l

，

c

是罚参数来控制

| r |

的大小。作者选择L-BFGS来求解该问题。如果这是一个凸优化问题，我们一定可以找到精确的"最近"对抗样本。可神经网络的损失函数往往是非凸的，因此我们只能不精确求解找到对抗样本（即找到的对抗样本不一定是最近）。可以看到该方法是最小化样本

x

对目标类别

l

的损失函数。
此外，对于对抗样本的存在性，作者也给出了一个可能的解释：就是现实世界中，对抗样本发生的概率是很低的。因此在训练集和测试集中都很少见到。而由于模型（神经网络）的高度非线性，导致过拟合只学习到了非对抗样本的特征，并没有学到真正所需要的泛化特征。因此对于生成的对抗样本很容易判断失误。类似于知乎上一个同学举的例子："假如我们需要一个分类器：能够区分正实数和负实数。由于在整个实数集中，无理数的个数比有理数多很多很多（多了无穷多个，无理数的基数比有理数的基数大），那么我们收集数据的时候，收集到的数大部分都是无理数，我们用这些无理数来训练分类器，用这些无理数来测试，发现正确率很高。可实际上呢，我们训练出来的分类器是个区分正负无理数的分类器，并非是区分正负实数的分类器。由于，有理数是稠密的，即给定一个无理数，总有一个有理数无限接近这个无理数，那么当我们用放到分类器测试，极有可能就分不出现正负。这里的有理数就类比于对抗样本。"(https://www.zhihu.com/question/49129585)
关于Intriguing properties of neural networks的理解

也就是说：我们采样的数据分布并不代表完整的真实数据分布。
但是作者没有给出有力的解释。因此后来Goodfellow提出了线性性是导致对抗样本的原因等等一系列讨论。

关于Intriguing properties of neural networks的理解

相关推荐