论文阅读笔记:GENERATING NATURAL ADVERSARIAL EXAMPLES

论文阅读笔记:GENERATING NATURAL ADVERSARIAL EXAMPLES

本文发表在ICLR2018

问题

传统对抗样本是unnatural的,在真实数据中几乎不存在

contribution

提出了一种生成更natural, legible的对抗样本的方法,这种方法可以用来衡量模型的鲁棒性

方法

1、利用WGAN和(无标注)真实数据X训练一个生成器Gθ:ZX描述数据的分布,这里Gθ将隐空间Z中的一个采样z 映射到相应的生成数据x
2、根据该生成器训练其反函数Iγ:XZ,用以将真实数据映射回隐空间。具体训练方法如下;
minγExp(x)(Gθ(Iγ(x))x)+λEzp(z)(L(z,Iγ(Gθ(z)))),这里L 用的是l2 距离
论文阅读笔记:GENERATING NATURAL ADVERSARIAL EXAMPLES
3、对于一个特定的真实数据x,利用Iγ 将其映射回隐空间,即z=Iγ(x),然后在隐空间上对z 进行随机扰动得到z~,最后由x~=Gθ(z~) 得到相应的对抗样本。具体地,有iterative stochastic search和hybrid shrinking search两种方式,第一种每次迭代随机采样N 个扰动并按Δr增大搜索范围,直到相应的生成数据的label发生改变,然后在这些对抗样本中选择与原样本相似度最高的一个,即x=Gθ(z),z=argminz~z~Iγ(x)s.t.f(Gθ(z~))f(x);第二种采用由粗到精的搜索方式,首先在较大范围内搜索,然后逐步缩小范围。由于这一过程是非启发式的,因此需要进行多次迭代。
论文阅读笔记:GENERATING NATURAL ADVERSARIAL EXAMPLES

效果

论文阅读笔记:GENERATING NATURAL ADVERSARIAL EXAMPLES
基于FSM生成的对抗扰动毫无语义性可言,但是基于本文方法生成的对抗样本则在外观上更加自然
文章还对比了不同模型进行对抗样本生成的实验,发现鲁棒性更高的模型需要的迭代次数更多

改进思路

在white-box attack中使用梯度反传生成隐空间中对抗样本对应的向量然后以此生成对抗样本?