[paper]ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD

本文指出在现实世界的场景下,机器学习系统也是非常脆弱的。并提出了BIM&ILCM算法,可用于现实世界场景下的对抗样本生成。
论文主要内容:

  • 探讨了为在物理世界中运行的机器学习系统创建对抗样本的可能性
  • 提出了两种方法来生成对抗样本,BIM&ILCM:
    [paper]ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD
  • 引入破坏率来表示现实世界中的变换对对抗样本的影响

损失函数—交叉熵损失(这里省略了网络权重θ\theta)
J(X,y)=logP(yX)J(X,y)=-logP(y|X)
Clip函数—Clipx,ϵX Clip_{x,\epsilon }{{X~{'}}}
[paper]ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD
x,y,z 分别表示XX(图片)的宽度、高度、通道数。
该公式的意思是限制生成的对抗样本在XX的 ϵ 邻域内。

BIM&ILCM算法:
BIM是FGSM算法的拓展,作者使用了多次小步迭代,并且在每一步后得到的结果像素值都使用Clip函数进行修改,确保得到的结果在原始图像的 ϵ 邻域内。BIM公式:
[paper]ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD
在实验中,作者使 α=1,这意味着每改变像素一点,迭代次数为 min(4+ϵ,1.25ϵ)min(4+\epsilon,1.25\epsilon)
ILCM又是是BIM的拓展,ILCM将攻击拓展到了定向攻击。ILCM方法试图使对抗样本被误分类成一个特定类,作者选择与原图像最不相似的类作为目标类,即:
[paper]ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD为了让对抗样本误分类成yLLy_{LL},需要最大化 logp(yLLX)log p(yLL∣X) ,所以要在 signXlogp(yLLX) sign{Xlog p(yLLX)}sign{∇Xlog p(yLL∣X)}\ sign\{\nabla_X log\ p(y_{LL}|X)\}方向上进行迭代,对于使用交叉熵作为损失函数的网络,其表达形式为signXJ(X,yLL)sign{−∇XJ(X,yLL)}。ILCM公式:
[paper]ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD
另外,作者还使用了FGSM方法进行对照实验,
FGSM算法是基于优化的方法,不需要迭代。因此生成对抗样本的速度也是最快的。FGSM公式:
[paper]ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD
ϵ\epsilon是调节扰动大小的超参数

[paper]ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD

为了衡量图像变换对对抗样本的影响大小,作者引入了破坏率(Destruction rate)的概念。即:在图像变换后,对抗样本不再被误分类的比例。定义如下:
[paper]ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD
nn表示图片的数量,XkX^{k}表示第k个图片,ytrueky_{true}^{k}表示第k个图片的正确类别,XadvkX_{adv}^{k}表示第k个图片的对抗样本,函数 TT表示任意的图片变换
[paper]ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD
该公式表示在被攻击成功的图像中,通过图像变换使其攻击失败的图像比例

作者进行了两组实验,第一个实验是使用的完整的数据集,即原始图片包含会被正确分类和不会被正确分类的干净数据。第二个实验是使用的预过滤的数据,即原始图片都是被正确分类的干净数据,且对抗样本都被误分类,且置信度都大于0.8。

实验结果如下:
[paper]ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD
[paper]ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD

[paper]ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD