论文阅读笔记:GENERATING NATURAL ADVERSARIAL EXAMPLES
论文阅读笔记:GENERATING NATURAL ADVERSARIAL EXAMPLES
本文发表在ICLR2018上
问题
传统对抗样本是unnatural的,在真实数据中几乎不存在
contribution
提出了一种生成更natural, legible的对抗样本的方法,这种方法可以用来衡量模型的鲁棒性
方法
1、利用WGAN和(无标注)真实数据X训练一个生成器描述数据的分布,这里将隐空间中的一个采样 映射到相应的生成数据;
2、根据该生成器训练其反函数,用以将真实数据映射回隐空间。具体训练方法如下;
,这里 用的是 距离
3、对于一个特定的真实数据,利用 将其映射回隐空间,即,然后在隐空间上对 进行随机扰动得到,最后由 得到相应的对抗样本。具体地,有iterative stochastic search和hybrid shrinking search两种方式,第一种每次迭代随机采样 个扰动并按增大搜索范围,直到相应的生成数据的label发生改变,然后在这些对抗样本中选择与原样本相似度最高的一个,即;第二种采用由粗到精的搜索方式,首先在较大范围内搜索,然后逐步缩小范围。由于这一过程是非启发式的,因此需要进行多次迭代。
效果
基于FSM生成的对抗扰动毫无语义性可言,但是基于本文方法生成的对抗样本则在外观上更加自然
文章还对比了不同模型进行对抗样本生成的实验,发现鲁棒性更高的模型需要的迭代次数更多
改进思路
在white-box attack中使用梯度反传生成隐空间中对抗样本对应的向量然后以此生成对抗样本?