健壮性V.S.准确率——18个深度图像分类模型的健壮性综述

\u0026#xD;\u0026#xD;

一、介绍

\u0026#xD;\u0026#xD;

图像分类是计算机视觉中的一个基本问题，是多种视觉任务的基础，如目标检测、图像分割、目标跟踪、行为识别和自动驾驶等。自从2012年的ImageNet挑战赛AlexNet模型取得重大突破，深度神经网络（DNN）已经成了这个领域的中坚力量。自此之后，出现了越来越深的DNN模型和越来越复杂的结构。尽管这些模型的识别率稳步上升，但是却没多少人注意到识别率上升的代价是健壮性的降低。

\u0026#xD;\u0026#xD;

一般评价DNN健壮性的方法是通过对抗攻击，即生成对抗样本来误导网络。一般来说，对抗样本的生成越简单，DNN的健壮性就越低。除了对抗攻击，神经网络健壮性也可以通过攻击不可知的方式进行评价，例如通过分析网络全局和局部的Lipschitz常数可以评估简单网络的健壮性。也可以通过使用极值理论来评估最小对抗失真的边界，可以用于任意神经网络。在本文中，我们通过使用特定攻击，以及攻击未知的方式来评价DNN的健壮性。

\u0026#xD;\u0026#xD;

由于最近的ImageNet比赛在2017年结束，我们现在处于后ImageNet时代。我们将回顾18个ImageNet挑战赛中取得较好成绩的DNN模型。这些模型的尺寸、分类性能各不相同，分别属于AlexNet、VGG网络、Inception网络、ResNet、DenseNet、MobileNet，以及NASNet。我们主要关注以下两个问题：

\u0026#xD;\u0026#xD;

提高模型分类准确度时是否需要损失健壮性？\u0026#xD;\t
影响DNN健壮性的因素有什么？\u0026#xD;

论文贡献

\u0026#xD;\u0026#xD;

（1）经过测试大量深度图像分类器，我们发现单纯追求更高的分类精度，将会损失健壮性。2范数与无穷范数对抗失真基本随模型分类器误差的对数函数线性变化。因此，测试误差很低的模型更易受到对抗样本的影响。我们建议ImageNet网络设计者应该通过我们的开放式准确率-健壮性Pareto边界来衡量模型的健壮性。

\u0026#xD;\u0026#xD;

（2）同一类型的网络，例如VGG、InceptionNet、ResNet以及DenseNet，都具有类似的健壮性属性。这也说明网络结构对健壮性的影响比模型尺寸更大。除此之外，我们发现当ResNet、InceptionNet和DenseNet网络变深时，无穷范数失真的健壮性也有所提高。

\u0026#xD;\u0026#xD;

（3）由VGG网络生成的对抗样本可以很好的迁移到其他17个模型，而其他模型生成的对抗样本都只能在同一类模型内部迁移。有意思的是，这一发现给我们提供了一个将黑盒模型结构****的机会。

\u0026#xD;\u0026#xD;

（4）这是首个将18个最流行的ImageNet模型的健壮性进行对比分析的综述型研究，提供了准确率与健壮性权衡的整体情况。从对抗样本可迁移性的角度来看，我们在18个ImageNet网络之间进行了全面的成对实验（306对），是目前规模最大的实验。

\u0026#xD;\u0026#xD;

二、实验设置

\u0026#xD;\u0026#xD;

我们研究无目标攻击和有目标攻击。假设x0代表原始图片，而x代表x0的对抗图片。DNN模型F输出一个类别标签（或者类别标签的概率分布）作为预测值。为了不失一般性，我们假设F(x0)=y0，是x0的真实类标。对于无目标攻击，对抗图像x的标准是：x接近于x0，但是F(x)¹y0。对于目标攻击，目标类别t（t¹y0）和对抗图片x应该满足如下关系：（1）x与x0相近，（2）F(x)=t。

\u0026#xD;\u0026#xD;

\u0026#xD;\t
深度神经网络结构
\u0026#xD;\t\u0026#xD;

我们研究了18个深度图像分类模型的健壮性，分别属于7类网络结构。表1给出了这些模型的基本性质和结构参数。

\u0026#xD;\u0026#xD;

表1 18个ImageNet模型的健壮性评测

\u0026#xD;\u0026#xD;

\u0026#xD;\t
健壮性评价方法
\u0026#xD;\t\u0026#xD;

我们使用对抗攻击和对抗未知攻击方法来评价网络健壮性。我们首先用攻击算法生成每个网络的对抗样本，然后分析攻击成功率和对抗样本的失真。为了进一步研究对抗图像的可迁移性，我们将网络组成306对，对于每一对网络，我们进行迁移攻击，使用一个模型生成的对抗样本来攻击另一个模型。最后，我们计算CLEVER分数，来评测对未知攻击的网络健壮性。

\u0026#xD;\u0026#xD;

对抗攻击方法：

\u0026#xD;\u0026#xD;

FGSM（Fast Gradient Sign Method）：先进且有效的攻击方法。它只需要通过计算一次梯度就可以生成对抗样本x：

\u0026#xD;\u0026#xD;

Iterative FGSM：I-FGSM解决了FGSM低成功率的问题。I-FGSM可以看作是在一个无穷范数球面内的投影梯度下降方法。

\u0026#xD;\u0026#xD;

C\u0026amp;W attack：将生成对抗样本问题转化为如下的优化问题：

\u0026#xD;\u0026#xD;

其中f(x,t)是衡量x的预测类标和目标类标之间的距离的损失函数。在这项工作中：

\u0026#xD;\u0026#xD;

Logit(x)代表x在logit层的矢量表示，k代表信任程度，较大的k能提升对抗样本的可迁移性。

\u0026#xD;\u0026#xD;

目前C\u0026amp;W攻击方法是在小的2范数扰动中寻找对抗样本最好的方法。

\u0026#xD;\u0026#xD;

EAD-L1 attack：该方法使用弹性网络正则项，l1和l2范数的线性组合来惩罚原始样本和对抗样本之间比较大的失真：

\u0026#xD;\u0026#xD;

对抗未知方法：

\u0026#xD;\u0026#xD;

CLEVER：使用极值理论来估计一个最小对抗失真的边界。较高的CLEVER分数代表网络对于对抗样本较健壮。CLEVER是对抗未知的攻击，能反映网络的内在健壮性，而不是在特定攻击下的健壮性。

\u0026#xD;\u0026#xD;

\u0026#xD;\t
数据集
\u0026#xD;\t\u0026#xD;

我们使用ImageNet作为benchmark数据集。从ImageNet验证集中随机选择了1000张图像，用于生成对抗样本。对于每张图像，我们可以用随机目标进行目标攻击，也可以进行无目标攻击。

\u0026#xD;\u0026#xD;

\u0026#xD;\t
评价指标
\u0026#xD;\t\u0026#xD;

DNN模型的健壮性用以下四个指标来评价：

\u0026#xD;\u0026#xD;

攻击成功率：对于无目标攻击，成功率是对抗样本的预测类标与真实值不同的比例。对于有目标攻击，成功率是指分类器将对抗样本分到目标类别的比例。不管是哪种攻击，更高的成功率表示模型更容易受到攻击影响，因此健壮性较低。

\u0026#xD;\u0026#xD;

失真：我们用2-范数和无穷范数衡量对抗图像和原始图像之间的失真程度。2-范数衡量两张图像之间的欧几里德距离，无穷范数衡量的是每个像素的最大变化绝对值。这两者均广泛应用于衡量对抗扰动。失真程度更大表示模型健壮性更高。

\u0026#xD;\u0026#xD;

CLEVER分数：对于目标攻击的每张图像，我们分别计算随机目标类别和最不可能的目标类别的l2 CLEVER分数。CLEVER分数越高，模型越健壮。

\u0026#xD;\u0026#xD;

可迁移性：对于非目标攻击，可迁移性定义为从一个模型（源）生成的对抗样本会被其他模型（目标）误分类的比例。我们将这个比例表示为误差率。误差率越高，则代表非目标攻击的迁移性更好。对于目标攻击，可迁移性定义为匹配率，也就是原模型中生成的对抗样本被目标模型误分为目标类别的比例。匹配率更高，则可迁移性更强。

\u0026#xD;\u0026#xD;

三、实验

\u0026#xD;\u0026#xD;

\u0026#xD;\t
对抗攻击评价
\u0026#xD;\t\u0026#xD;

我们对比了目标攻击在随机目标下的成功率，比较了FGSM、I-FGSM、C\u0026amp;W以及EAD-L1对所有18个模型的不同参数下的情况。如图1所示：

\u0026#xD;\u0026#xD;

图1 FGSM、I-FGSM、C\u0026amp;W以及EAD-L1的攻击对比

\u0026#xD;\u0026#xD;

对于目标攻击，FGSM的成功率十分低（小于3%）。更说明FGSM是一种弱攻击，并且需要迭代的攻击方法。图1(c)显示，只需要10次迭代，I-FGSM就能在所有模型上达到十分好的攻击成功率。C\u0026amp;W和EAD-L1也能达到几乎100%的攻击成功率。

\u0026#xD;\u0026#xD;

对于C\u0026amp;W和EAD-L1攻击，增加自信度K会让攻击更难找到可行对抗样本。较大的K通常可以让对抗失真更普遍，并且提高可迁移性，但是通常以成功率降低且失真增加为代价。

\u0026#xD;\u0026#xD;

\u0026#xD;\t
健壮性V.S.准确率的线性扩展法则
\u0026#xD;\t\u0026#xD;

这一章主要研究不同ImageNet模型的健壮性和准确率之间的关系，健壮性通过无穷范数和2范数失真，或者l2 CLEVER分数来度量。图2给出了失真/分数V.S. Top-1预测精度的散点图。

\u0026#xD;\u0026#xD;

图2 I-FGSM攻击、C\u0026amp;W攻击以及CLEVER分数在18个ImageNet模型上的健壮性与分类准确率曲线图

\u0026#xD;\u0026#xD;

我们定义分类误差为1-准确率（1-acc）。通过将失真度与模型在Pareto健壮性-准确率边界的分类误差进行回归，我们发现失真与分类误差的对数呈线性关系：失真=a+b*log(分类误差)。因此，如果我们单纯追求模型的低测试误差，那么模型的健壮性会受到损失。所以在设计新的图像分类网络时，我们建议设计者权衡准确率和健壮性之间的关系。

\u0026#xD;\u0026#xD;

\u0026#xD;\t
不同模型尺寸和结构的健壮性
\u0026#xD;\t\u0026#xD;

我们发现模型结构是比模型尺寸更重要的影响因素。同一类网络具有类似的健壮性，即使他们的深度和模型尺寸不同。例如AlexNet有大约6千万个参数，但是其健壮性最强，而Moblienet-0.50-160虽然仅有1千5百万个参数，却很容易受到对抗攻击的影响。

\u0026#xD;\u0026#xD;

我们也发现，在同一类模型内部，网络结构越深便能略微提高健壮性。

\u0026#xD;\u0026#xD;

\u0026#xD;\t
对抗样本的可迁移性
\u0026#xD;\t\u0026#xD;

\u0026#xD;\u0026#xD;

图3 FGSM攻击在18个ImageNet模型上的可迁移性

\u0026#xD;\u0026#xD;

图4 I-FGSM攻击在18个ImageNet模型上的可迁移性

\u0026#xD;\u0026#xD;

图5 EDA-L1攻击在18个ImageNet模型上的可迁移性

\u0026#xD;\u0026#xD;

图3、图4和图5分别显示了FGSM、I-FGSM和EAD-L1在所有18个模型中（306对模型）的可迁移性热力图。热力图的第i行与第j行的值代表对抗样本代表源模型i生成的对抗样本能成功地转移到目标模型j的比例。热力图对角线上的值代表对应模型的攻击成功率。我们用成功率来衡量无目标迁移攻击，以及匹配率来衡量有目标迁移攻击。总的来说，无目标攻击的可迁移性大大高于有目标攻击的。

\u0026#xD;\u0026#xD;

实验结论要点：

\u0026#xD;\u0026#xD;

在无目标迁移攻击中，FGSM和I-FGSM比EAD-L1有更高的迁移成功率，而C\u0026amp;W的成功率更低。\u0026#xD;\t
同样，在无目标迁移攻击中，对于I-FGSM，更少的迭代次数能产生更好的迁移性。对于无目标EAD-L1迁移攻击，较高的k值能带来更好的可迁移性。\u0026#xD;\t
对抗样本的可迁移性有时是对称的。\u0026#xD;\t
我们发现VGG16和VGG19模型的可迁移性明显高于其他模型。因此VGG模型是提升黑盒可迁移性攻击的良好起点。\u0026#xD;\t
最近的网络有一些特点会限制对抗样本只能在同一类模型内部进行迁移。例如图4所示，使用I-FGSM在无目标迁移攻击时，对于DenseNet、ResNet和VGG，同一结构不同深度的模型可迁移性达到了100%，但是对不同结构的可迁移性则大大降低。\u0026#xD;

四、结论

\u0026#xD;\u0026#xD;

这篇论文对18个ImageNet模型进行了大规模的对抗样本数据实验，主要关注1-范数、2-范数以及无穷范数等攻击方法，以及攻击未知健壮性分数，CLEVER。结果显示准确率和健壮性之间有明显的折衷关系，一般情况下准确率的升高会带来健壮性的降低。我们发现了失真度量和误差率对数之间的线性扩展法则。据此我们推测，一味地追求高准确率模型很有可能会导致模型缺乏健壮性。我们也进行了全面的对抗攻击可迁移性分析，并且讨论了模型结构对健壮性的影响。

\u0026#xD;\u0026#xD;

研究结论如下：

\u0026#xD;\u0026#xD;

（1）线性扩展法则——2范数和无穷范数失真指标会随分类误差的指数线性变化。

\u0026#xD;\u0026#xD;

（2）模型结构是比模型尺寸更为重要的健壮性因素，而开放的准确率-健壮性Pareto边界可以作为ImageNet模型的衡量标准。

\u0026#xD;\u0026#xD;

（3）对于相似的网络结构，增加网络深度能够略微提升无穷范数失真的健壮性。

\u0026#xD;\u0026#xD;

（4）VGG模型具有较高的对抗迁移性，而大部分从一个模型中制作的对抗样本只能在同类模型中迁移。

\u0026#xD;\u0026#xD;

我们认为这一发现能够为其他计算机视觉任务，例如目标检测和图像理解的模型健壮性和对抗样本构建提供新的思路。

\u0026#xD;\u0026#xD;

五、补充实验

\u0026#xD;\u0026#xD;

我们提取了被18个模型均能正确分类的图像（共327张），然后给出了C\u0026amp;W攻击和I-FGSM攻击中他们的准确率-健壮性示意图：

\u0026#xD;\u0026#xD;

图6 I-FGSM攻击、C\u0026amp;W攻击在18个ImageNet模型的随机目标设置下的健壮性-准确率曲线图。

\u0026#xD;\u0026#xD;

我们将最小可能（least-likely）类别标签作为目标类别来评测健壮性与准确率的关系。尽管最小可能标签的挑战性更高，I-FGSM和C\u0026amp;W算法依然能达到接近100%的成功率。

\u0026#xD;\u0026#xD;

图7 I-FGSM、C\u0026amp;W攻击在18个ImageNet模型上，以最小可能标签作为目标类别的健壮性与准确率关系图

\u0026#xD;\u0026#xD;

\u0026#xD;\t
C\u0026amp;W攻击的可迁移性
\u0026#xD;\t\u0026#xD;

与I-FGSM和EAD-L1攻击相比，C\u0026amp;W攻击使用2-范数产生了更低的可迁移性。

\u0026#xD;\u0026#xD;

图8 C\u0026amp;W攻击在ImageNet18个模型上的可迁移性

\u0026#xD;\u0026#xD;

\u0026#xD;\t
I-FGSM攻击的可迁移性
\u0026#xD;\t\u0026#xD;

\u0026#xD;\u0026#xD;

图9 I-FGSM攻击在ImageNet18个模型上的可迁移性，epsilon=0.1

\u0026#xD;\u0026#xD;

图10 I-FGSM攻击在ImageNet18个模型上的可迁移性，epsilon=0.2

\u0026#xD;\u0026#xD;

可以看出：（1）I-FGSM的可迁移性随epsilon的增加而提升；（2）更少的迭代次数能带来更高的可迁移性；（3）无目标攻击的可迁移性远远高于目标攻击；（4）VGG网络的对抗样本迁移性较好；（5）对抗样本更容易在同类结构不同深度的网络中迁移。

\u0026#xD;\u0026#xD;

查看论文原文：Is Robustness the Cost of Accuracy? – A Comprehensive Study on the Robustness of 18 Deep Image Classification Models

\u0026#xD;\u0026#xD;

论文实验代码：https://github.com/huanzhang12/Adversarial_Survey

\u0026#xD;\u0026#xD;

感谢蔡芳芳对本文的策划和审校。

健壮性V.S.准确率——18个深度图像分类模型的健壮性综述

一、介绍

论文贡献

二、实验设置

深度神经网络结构

健壮性评价方法

数据集

评价指标

三、实验

对抗攻击评价

健壮性V.S.准确率的线性扩展法则

不同模型尺寸和结构的健壮性

对抗样本的可迁移性

实验结论要点：

四、结论

五、补充实验

C\u0026amp;W攻击的可迁移性

I-FGSM攻击的可迁移性

相关推荐