关于Intriguing properties of neural networks的理解

 这是有关神经网络的对抗样本的首篇文章,Szegedy等人发现了神经网络的一些(两个)有趣的性质。
 第一个是关于高维神经网络的神经元的含义问题,先前的一些工作认为深度神经网络的神经元都代表着某一个特征,因此他们寻找能够最大**某一个特定神经元的样本集合。而他们的实验发现,通过寻找最大化**某个特定神经元的方法也许并没有真正找到本质的信息。因为即便是对于某一个隐层的所有神经元的线性加权进行最大化**,也同样会对一组图片表现出相近的语义亲和性,并且,这个发现在不同的数据集上得到了验证。
我们求解如下问题来找到最大化**该神经元ϕ(x)的样本:

x=argmaxxIϕ(x),ei

关于Intriguing properties of neural networks的理解
其中ei对应隐层第i个神经元的自然基向量ei=(0,...,1,...0)
如果我们选择该层神经元的随机线性组合进行最大化:
x=argmaxxIϕ(x),v

关于Intriguing properties of neural networks的理解
发现得到了相似的结果,这说明也许是该隐层划分的空间,而不是单个的神经元包含了语义的信息。
 关于这个进一步的解释我也并不了解,因为我们真正感兴趣的是第二个性质,对抗样本的存在。对抗样本是指对原样本产生一些微小的扰动(甚至人眼都可能无法察觉),然而分类器却产生了完全不一样的结果,甚至以高置信度错误分类。
 作者通过求解以下优化问题得到对抗样本:
minc|r|+lossf(x+r,l)

其中lossf是神经网络对应的损失函数,l是错误分类的类别标记,即f(x+r)=l,f(x)lc是罚参数来控制|r|的大小。作者选择L-BFGS来求解该问题。如果这是一个凸优化问题,我们一定可以找到精确的"最近"对抗样本。可神经网络的损失函数往往是非凸的,因此我们只能不精确求解找到对抗样本(即找到的对抗样本不一定是最近)。可以看到该方法是最小化样本x对目标类别l的损失函数。
 此外,对于对抗样本的存在性,作者也给出了一个可能的解释:就是现实世界中,对抗样本发生的概率是很低的。因此在训练集和测试集中都很少见到。而由于模型(神经网络)的高度非线性,导致过拟合只学习到了非对抗样本的特征,并没有学到真正所需要的泛化特征。因此对于生成的对抗样本很容易判断失误。类似于知乎上一个同学举的例子:"假如我们需要一个分类器:能够区分正实数和负实数。由于在整个实数集中,无理数的个数比有理数多很多很多(多了无穷多个,无理数的基数比有理数的基数大),那么我们收集数据的时候,收集到的数大部分都是无理数,我们用这些无理数来训练分类器 ,用这些无理数来测试,发现正确率很高。可实际上呢,我们训练出来的分类器 是个区分正负无理数的分类器,并非是区分正负实数的分类器。由于,有理数是稠密的,即给定一个无理数 ,总有一个有理数 无限接近这个无理数,那么当我们用放到分类器测试,极有可能就分不出现正负。这里的有理数就类比于对抗样本。"(https://www.zhihu.com/question/49129585)
关于Intriguing properties of neural networks的理解
也就是说:我们采样的数据分布并不代表完整的真实数据分布。
但是作者没有给出有力的解释。因此后来Goodfellow提出了线性性是导致对抗样本的原因等等一系列讨论。