【论文笔记】Generating Natural Adversarial Examples
Generating Natural Adversarial Examples. Zhengli Zhao, Dheeru Dua, Sameer Singh. ICLR 2018. decision[pdf][code]
贡献
框架
解释样本
举例说明(使用算法1)
实验
结论
要点:
- 引入(逆变器)。利用策略训练出生成器,借助生成器训练逆变器。是的反向过程:
- 输入空间&语义空间。不直接对输入样本进行扰动,而是借助隐层空间。样本通过逆变器映射到该空间得到,对进行随机扰动得到^,然后通过生成器得到^,使分类器原始标签发生变化。选择最接近的^记作。则对抗样本。
- 随机扰动。提出两个搜索算法。算法一是由近及远进行搜索,每次按delta 扩大搜索范围。一次迭代随机采样个扰动,迭代次数越靠前与原样本的相似度就越高。该算法效率低。算法二是由远及近,每次迭代都要缩紧采样上界。在每次迭代中使用二分策略调整采样下界。该算法速度4倍于算法一,效果近似。但计算代价仍然高。
- 引入自编码器对离散的文本数据进行处理。编码成连续代码,解码成离散文本。
- 黑盒环境下,通过无标注的数据集衡量模型的鲁棒性(准确地说是准确率)。
思考:
- 文本:该方法+同义词选择方法+语言模型 = 高质量的对抗样本
- 该思想用于白盒环境下,结合梯度?