论文翻译-Defending Against Universal Attacks Through Selective Feature Regeneration

CVPR2020-通过选择性特征再生防御通用攻击

        有一段时间自己看的论文都没有把相应的翻译或者笔记整理成文档的形式了,虽然在PDF上会有一些标注,但是觉得还是成稿的形式会方便很长一段时间之后回过头继续看及时回顾起来。

摘要

        深度神经网络(DNN)的预测已经被证明容易受到精心设计的对抗性扰动的影响。特别地是,向任何图像中添加图像不可知的扰动(即通用对抗扰动)都可以欺骗目标网络,使其做出错误的预测。现有的防御策略主要在图像域进行,而我们提出了一种在DNN特征域进行防御的新型防御策略,有效地防御了这种通用扰动。我们的方法识别出最容易受到对抗噪声影响的预训练卷积特征,并部署了可训练的特征再生单元,将这些DNN滤波器**转换成对通用扰动具有鲁棒性的弹性特征。在最多6个DNN层中只恢复最高50%的相对敏感性活动,并保持所有剩余的DNN活动不变,我们在恢复精度上比现有的跨不同网络架构的防护策略提高了10%以上。我们证明,在没有任何额外修改的情况下,我们在ImageNet上用一种类型的通用攻击样本进行的防御训练能有效防御其他类型的未知通用攻击。

介绍

        尽管DNN在计算机视觉任务中不断取得成功并得到广泛应用[25,59,62,18,55,54,58,68],当一个小幅度的、精心设计的扰动(对抗噪声),人们几乎察觉不到它的存在,被添加到一个输入图像中时,这些网络还是做出了错误的预测[63,15,35,6,24,41,48,26,49]。此外,这种干扰已经成功地通过物理对抗样本[3,12,26]放置在现实世界的场景中,从而构成了安全风险。

        大多数现有的对抗性攻击都使用目标网络模型梯度来构建一个依赖于图像的对抗样本[63,15,26,41,49,6],限制了在其他网络或图像上的迁移性[63,32,47]。其他产生依赖图像的对抗样本的方法包括只访问网络预测结果[20,46,61],使用替代网络[48]和梯度近似[2]。虽然之前在对抗防御方面已经做了大量的工作,例如对抗性训练[63,15,35,66],集成训练[64],随机图像转换和去噪[16,52,10,40,52,60,10,33,31],以及对抗性样本排斥[29,34,67,36,37],DNN仍然是脆弱的,在面向这种添加到输入不可忽视部分的对抗扰动时[2,65]。这些防御措施主要集中在使DNN对依赖图像的对抗性扰动具有鲁棒性,而图像相关的对抗性扰动在现实的视觉应用中不太可能遇到[1,45]。

        我们提出的工作重点是防御通用对抗性攻击。与前面提到的依赖图像的对抗性攻击不同,通用对抗性攻击[38,44,43,51,23,45,53,42,30]构建了一个单一的图像不可知的扰动,当添加到任何未知的图像可以以高置信度愚弄模型输出错误的结果。这些通用的扰动也不是唯一的,许多对抗的方向可能存在于Dnn的特征空间(图1,第2行)[39,14,]。此外,对一个DNN产生的通用扰动可以迁移到其他DNN,使它们具有双重通用性[38]。这种与图像无关的干扰为许多视觉应用提供了一个强有力的现实威胁模型[45],因为扰动可以很容易地预先计算,然后实时地插入到任何场景中(以打印的对抗性补丁或贴纸的形式)[28,5]。例如,当执行语义分割时,这种图像不可知扰动可以在分割后的场景输出中完全隐藏目标类(即行人),并对自动驾驶汽车的刹车行为产生不利影响[19]。

        这项工作提出了一种新颖的防御方法来对抗通用的对抗性威胁模型[38,43,44,51,23,45],有以下贡献:

1.我们证明了一组易受攻击的卷积滤波器的存在,它们对DNN在对抗环境下的错误预测负有很大的责任,“卷积滤波器权重的1-norm”可用于识别这类滤波器。

2.与现有的图像域防御不同的是,我们提出的DNN特征空间防御使用可训练的特征再生单元,将上述易受攻击的卷积滤波器再生为弹性特征(对抗性噪声掩蔽)。

3.提出了一种为训练产生强合成对抗扰动的快速方法。

4.我们在一系列DNN体系结构上广泛评估了提出的防御方案,并表明我们提出的防御方案优于所有其他现有的防御方案[1,52,66,31,35,45](图1)。

5.在没有任何额外的特定攻击训练的情况下,我们的防御系统针对一种通用攻击[38]有效地防御其他不同的未知通用攻击[44,43,51,45,23,42](图1),我们是第一个在不同的通用攻击中显示如此广的泛化性能的防御方法。

论文翻译-Defending Against Universal Attacks Through Selective Feature Regeneration
图1.提出的防御对各种通用扰动的效果:第1行展示了受到不同通用攻击(UAP [38],NAG [44],GAP [51]和sPGD)干扰的图像(类别标签:“冰淇淋”) [45]),第二行展示了不同的通用扰动之间的差异。 第3行显示了提出的防御方法和次优防御方法(PRN [1],PD [52],FD [66]和HGD [31])的预测和置信度得分。 我们的方法有效地防御了每个通用攻击,以较高的置信度正确分类图像(绿色),而所有其他防御将图像错误分类(红色)。

相关工作

对抗训练[63,15,35]在训练阶段通过增强DNN对依赖于图像的对抗性攻击的鲁棒性,并结合对抗样本,对每一小批使用梯度上升的DNN进行实时计算,使DNN的损失最大化。通过对从一组DNNs[64]中选择的不同目标dnn进行扰动计算,可以提高对抗训练对黑盒攻击的鲁棒性。Kan-nan等人[22]规模对ImageNet的对抗性训练[9],通过鼓励对抗性损失匹配logits对抗性和无干扰的图像(logit配对)

但是后一种方法对于更强的迭代at-tacks[11]是失败的。除了正面训练基线DNN外,先前的工作([66],[27])通过去噪中间DNN特征映射图,通过非局部平均去噪(特征[66])或去噪自动编码器(加强网[27]),进一步提高了DNN对图像相关攻击的鲁棒性。虽然Xie等人报告了对于强PGD攻击的有效鲁棒性,[35]evaluatedonImageNet[9],额外的非局部平均值仅比使用标准对抗训练的DNN增加了4%的改进。与特征去噪[66]相比,本文提出的特征再生方法有以下区别:(1)我们的特征再生单元不仅限于去噪,而且还包括可训练卷积层的叠加,这些叠加为我们的防御提供了灵活性,可以学习适当的特征恢复变换,有效地防御单一攻击,不同于在FD中使用的非局部均值去噪;(2)在选定的DNN层中,只再生最易受对抗性噪声影响的特征映射子集(由我们的排名度量标识),不改变其他特征映射,而FD去除了所有特征映射,这可能导致过度校正或引出低幅度噪声特征映射中不需要的人工影响;(3)不像FD那样对基线DNN中的所有参数进行逆向训练,而是只对特征更新单元中的参数进行训练(最多比基线DNN少90%的参数),并保留基线DNN中的所有参数不变,这样可以加快训练速度,减少过拟合的风险。

图像域防御通过利用不可微变换的输入,如图像压缩[10,8,33],频域去噪[60]和图像拼接和重建[16,40]等,来减轻逆向扰动的影响。然而,这种方法在干净的图像中产生不必要的伪影,导致精度损失[1][52]。Prakash等人[52]提出了一个两步防御,首先执行随机局部像素分配,其次是小波降噪。Liao等人。[31]在基线DNN的输入端附加一个去噪的自动编码器,并使用一个重建损失来训练它,这个重建损失最小化了DNN的高层表示之间的误差,用于输入一对干净的和去噪的对抗性图像(高级引导去噪器)。另一种流行的分析方法是,首先检测到对抗性的干扰输入,然后避免做出预测,或者进一步预处理对抗性的输入,以便进行可重复性的预测[29,34,67,36,37]。

前面提到的所有防御措施都是针对特定于图像的基于梯度的攻击,到目前为止,没有一个防御措施能够抵御图像不可知论者的攻击。为了提高对全局攻击的鲁棒性,最初的尝试包括建立这种可能性的分布模型

 

通用威胁模型

令µc表示Rd中干净(不受干扰)图像的分布,F(·)是一个预测器,可预测图像x∈Rd的类别标签F(x)。 通用对抗扰动攻击在以下约束条件下寻找扰动向量v∈Rd [38]:

论文翻译-Defending Against Universal Attacks Through Selective Feature Regeneration

其中P(·)表示概率,||.||p是p∈[1,∞]的lp-范数,(1-δ)是δ∈[0,1)的目标愚弄率(即干净样本在受到对抗干扰时改变标签的占比),并且ξ控制对抗扰动的大小。

特征域对抗防御

在这项工作中,我们评估了单个卷积过滤器的脆弱性并表明,对于每一层,某些过滤器**的破坏性明显大于其他过滤器,尤其是在DNN的前几层。
        对于给定的层,令φm(u)为第m个卷积滤波器的输出(**图),其中输入u的kernel权重为Wm。令em =φm(u + r)−φm(u)是由于在输入u上施加了附加扰动r而在输出**图φm(u)中引起的附加噪​​声(扰动)。可以证明(请参阅补充材料)em的边界如下:

论文翻译-Defending Against Universal Attacks Through Selective Feature Regeneration


        像以前一样||.||p是p∈[1,∞)的L-p范数。公式2表明,滤波器权重的L1-范数可用于识别和限制卷积滤波器**的能力,以限制它们在其**图中的扰动。例如,当滤波器的输入受到扰动时,权重≤1范数较小的滤波器将在输出中产生微不足道的小扰动,因此被认为不易受到输入扰动的影响。为

        L∞-范数通用对抗输入,图2a显示了Caf-feNet [25]和GoogLeNet [62]的排名(使用拟定的1-范数排名)conv-1滤波器**的对抗噪声上限。图2b显示了在相应的DNN滤波器**中对抗性噪声的相应观测observed∞范数。我们可以看到,基于W1的排名与滤波器输出中引起的每扰动程度(噪声扰动的最大量)具有很好的相关性。可以对网络中的其他卷积层进行类似的观察。
在图3中,我们评估了在这种排名的滤波器中掩盖对抗性噪声对CaffeNet [25],VGG-16 [59]和GoogLeNet [62]的总体top-1准确性的影响。具体来说,我们从ImageNet [9]训练集中随机选择1000个图像的子集(每个类别1个图像),并通过添加∞-范数通用对抗性扰动来生成对抗性扰动图像[38]。对于CaffeNet,GoogLeNet和VGG-16,无扰动图像的前1个精度分别为0.58、0.70和0.69。同样,对于CaffeNet,GoogLeNet和VGG-16,相同子集的对抗性扰动图像的前1个精度分别为0.10、0.25和0.25。在50%最脆弱的过滤器**中掩盖对抗性扰动可显着改善DNN性能,从而使Caf-feNet,GoogLeNet和VGG-16的top-1精度分别为0.56、0.68和0.67,并验证了我们提出的选择性特征再生方案。有关更高层的类似实验,请参见补充材料中的图1。

论文翻译-Defending Against Universal Attacks Through Selective Feature Regeneration
图4