[paper]UPSET and ANGRI:Breaking High Performance Image Classifiers

提出了两种攻击算法,第一种是针对输出类别生成通用扰动(定向攻击),第二种针对不同图像生成特定扰动(定向攻击)。

  • UPSET:Universal Perturbations for Steering to Exact Targets
    UPSET网络为针对原始图像生成具有通用扰动的对抗样本,且可以使模型误分类为指定的目标类别。
    [paper]UPSET and ANGRI:Breaking High Performance Image Classifiers
    xx:原始图像
    tt :目标类别
    x^\hat{x} :对抗样本
    对抗扰动:rjj1,2,,nr_j,j∈{1,2,⋯,n}即生成第jj个目标分类的扰动
    残差生成网络:Rrt=R(t)R,r_t=R(t)
    UU :UPSET网络
    扰动叠加计算结果归一化到[−1,1],
    ss:比例参数,用于调节扰动 rr 的大小,一般取值为2。
    整体训练流程如下图所示:
    [paper]UPSET and ANGRI:Breaking High Performance Image Classifiers
  • ANGRI: Antagonistic Network for Generating Rogue Images
    ANGRI网络为针对原始图像生成具有特定扰动的对抗样本,且可以使模型误分类为指定的目标类别。
    x^=A(x,t)\hat{x}=A(x,t)
    原始图像:xx
    图像类别:cxc_x
    目标类别:ttcxt,t≠c_x
    AA :ANGRI网络
    整体训练流程如下图所示:
    [paper]UPSET and ANGRI:Breaking High Performance Image Classifiers
    损失函数(以上两个方法都用的这个损失评估函数):
    [paper]UPSET and ANGRI:Breaking High Performance Image Classifiers
    mm个预训练的分类器CiC_i,表示对抗样本x^\hat{x}输出的分类概率pip_ipi=Cix^p_i=C_i(\hat{x})
    误差函数由两部分组成,LCL_C表示(错误)分类损失,LFL_F表示保真度损失。
    LCL_C是交叉熵损失。如果模型无法正确预测为目标类别tt,则LCL_C会惩罚生成网络
    LFL_Fxxx^\hat{x}之间差异的范数,这确保了输入和输出图像看起来相似。
    权重ww用来折中两个损失指标,即图像保真度和对抗扰动的强弱
    kk的选择应使其不会促进稀疏性,否则残差将在较小的区域中累积并且非常明显。
    如果k=2k=2,那么就是L2L2范数,可以由R(x,t)22\left \| R(x,t) \right \|_{2}^{2}替换。

实验指标:

  • Targeted fooling rate (TFR): 定向攻击成功率
  • Misclassification rate (MR): 模型分类错误率
  • Fidelity score (FS): 对抗样本和原始图像的相似度
  • Confidence (C): 模型误分类时的平均置信度

实验结果:
[paper]UPSET and ANGRI:Breaking High Performance Image Classifiers
[paper]UPSET and ANGRI:Breaking High Performance Image Classifiers