[paper]UPSET and ANGRI:Breaking High Performance Image Classifiers
提出了两种攻击算法,第一种是针对输出类别生成通用扰动(定向攻击),第二种针对不同图像生成特定扰动(定向攻击)。
- UPSET:Universal Perturbations for Steering to Exact Targets
UPSET网络为针对原始图像生成具有通用扰动的对抗样本,且可以使模型误分类为指定的目标类别。
:原始图像
:目标类别
:对抗样本
对抗扰动:即生成第个目标分类的扰动
残差生成网络:
:UPSET网络
扰动叠加计算结果归一化到[−1,1],
:比例参数,用于调节扰动 的大小,一般取值为2。
整体训练流程如下图所示:
- ANGRI: Antagonistic Network for Generating Rogue Images
ANGRI网络为针对原始图像生成具有特定扰动的对抗样本,且可以使模型误分类为指定的目标类别。
原始图像:
图像类别:
目标类别:
:ANGRI网络
整体训练流程如下图所示:
损失函数(以上两个方法都用的这个损失评估函数):
有个预训练的分类器,表示对抗样本输出的分类概率 ,
误差函数由两部分组成,表示(错误)分类损失,表示保真度损失。
是交叉熵损失。如果模型无法正确预测为目标类别,则会惩罚生成网络
是和之间差异的范数,这确保了输入和输出图像看起来相似。
权重用来折中两个损失指标,即图像保真度和对抗扰动的强弱
的选择应使其不会促进稀疏性,否则残差将在较小的区域中累积并且非常明显。
如果,那么就是范数,可以由替换。
实验指标:
- Targeted fooling rate (TFR): 定向攻击成功率
- Misclassification rate (MR): 模型分类错误率
- Fidelity score (FS): 对抗样本和原始图像的相似度
- Confidence (C): 模型误分类时的平均置信度
实验结果: