最新综述:图像分类中的对抗机器学习

论文链接:

https://arxiv.org/abs/2009.03728

1.引言

最近百度自动驾驶出租车 Apollo GO 服务在北京全面开放,可见 AI 的各类应用在我们的日常生活中的渗透的广度和深度。需要提高警惕的是根植于深度神经网络模型的一个安全 bug(对样样本)也会随着各类 AI 应用的广泛铺展增多起来自然对对抗攻击的防御性手段需要格外重视。

在该论文中,作者旨在为所有读者从防御者的角度上提供一个关于对抗机器学习在图像分类中的最新研究进展,并且作者对现有的对抗攻击和对抗防御的方法以及对抗样本产生的原因进行了分类和整理,非常全面值得一读。

2.论文贡献

该论文的贡献可以归结为如下五点,分别如下所示:

  • 更新一些现有的分类方法法,以便对不同类型的对抗样本进行分类

  • 基于新分类法的对抗攻击防御的机进总结和分析

  • 将现有关于对抗样本存在原因的文献进行汇总

  • 提出了一些在设计和评估防御措施时应遵循的重要指导原则

  • 对该领域未来研究方向的进行了探讨

3.卷积神经网络简介

CNN 体系结构通常通过使用卷积层和池化层来执行特征学习,这些层分别从图像中提取有用的特征并降低其空间维数。在特征学习之后会连接全连接层。在分类任务中,会输出一个概率向量进行分类。如下图描述了一个 CNN 的标准架构示例。
最新综述:图像分类中的对抗机器学习

convolution:卷积  pooling:池化
计算机视觉领域的一项重要竞赛被称为 ILSVRC(ImageNet 大规模视觉识别挑战赛),鼓励人们创建分类准确率更高的 CNN 架构。下图所示显示了 ILSVRC 挑战中的一些脱颖而出的 CNN 框架,分别是 AlexNet、ZFNet、VGGNet、GoogLeNet、ResNet、Trimpsnet2 和 SENet。并且自 2015 年以来,CNNs 已经超越了人类的表现。
最新综述:图像分类中的对抗机器学习

4.对抗样本和对抗攻击

4.1 对抗攻击分类

对抗攻击的分类可以按照三个方面进行划分,分别是对抗扰动的扰动范围对抗扰动的可见性对抗扰动的测量方法

4.1.1 对抗扰动范围

对抗样本按照对抗扰动范围可能分为单个范围扰动通用范围扰动

  • 单个范围扰动:单个范围的扰动在文献中是最常见的,是针对于每一张输入图像进行对抗攻击

  • 通用范围扰动:通用范围扰动是图像无关的扰动,即它们是独立于任何输入样本而产生的扰动。然而,当它们被应用于一个合法的图像时,由此产生的对抗性示例通常会导致模型错误分类。通用扰动允许在实词场景中更容易进行对抗性攻击,因为这些扰动只需精心设计一次就可以插入到属于某个数据集的任何样本中。

4.1.2 对抗扰动的可见性

对抗样本按照对抗扰动的可见性可以分为最优扰动不可分辨的扰动可见扰动物理扰动愚弄噪声普通噪声

  • 最优扰动:这些扰动对人眼来说是不可察觉的,但有助于导致深度学习模型的错误分类,通常对预测具有很高的可信度;

  • 不可分辨的扰动:无法区分的扰动对人眼来说也是无法察觉的,但它们不足以愚弄深度学习模型;

  • 可见扰动:当插入到图像中时,可以愚弄深度学习模型的扰动。然而,它们也很容易被人类发现;

  • 物理扰动:扰动是否设计在像素范围之外,并实际添加到现实世界中的对象本身。尽管有些研究已经将物理扰动应用于图像分类,但它们通常都是针对涉及目标检测的任务。

  • 愚弄噪声:使图像腐化到人类无法辨认的程度的扰动。然而,分类模型认为这些损坏的图像属于原始分类问题的一类,有时赋予它们对预测的高置信度。

  • 普通噪声:与扰动的恶意性质不同,噪声是非恶意的或非最优的破坏,可能存在于输入图像中或插入到输入图像中。噪声的一个例子是高斯噪声。

4.1.3 对抗扰动的测量

考虑到很难定义一个度量人类视觉能力的度量标准,p 范数最常用于测量插入到图像中的扰动的大小和数量。p 范数计算干净图像 x 与产生的对抗性样本x'之间的输入空间中的距离 最新综述:图像分类中的对抗机器学习,其中 最新综述:图像分类中的对抗机器学习具体距离计算公式如下所示:

最新综述:图像分类中的对抗机器学习

当  p=1的时候,p 范数表示的是曼哈顿距离;当 p=2时候表示的是欧几里德距离;当 p=0 时,计算干净样本中修改的像素数,最新综述:图像分类中的对抗机器学习以生成对抗样本。 度量两幅图像对应位置上所有像素之间的最大差值,其中 最新综述:图像分类中的对抗机器学习 的计算公式为:

最新综述:图像分类中的对抗机器学习

备注:

欧氏距离里的距离计算:
最新综述:图像分类中的对抗机器学习


曼哈顿距离中的距离计算:
最新综述:图像分类中的对抗机器学习

对抗样本:是指在数据集中通过故意添加细微的干扰所形成的输入样本,导致模型以高置信度给出一个错误的输出。

4.2 对抗攻击的分类

备注:
对抗攻击?

由于机器学习算法的输入形式是一种数值型向量(numeric vectors),所以攻击者就会通过设计一种有针对性的数值型向量从而让机器学习模型做出误判,这便被称为对抗性攻击。

在安全的背景下,对抗性攻击和攻击者被归为威胁模型。威胁模型定义了防御设计的条件,在这种情况下,防御系统能够为特定类型的攻击和攻击者提供安全保障。

根据攻击者对目标分类器的知识(例如其参数和体系结构)和对抗攻击的目标,以及如何执行对抗性攻击可以将威胁模型可以分为以下几个方面分别是攻击者的影响攻击者的知识安全侵犯攻击特异性攻击方法

4.2.1 攻击者的影响力

攻击者的影响力表示的是攻击者控制深度学习模型力度。考虑到对分类模型的影响,攻击者可以执行两种类型的攻击分别是中毒攻击逃避或试探性攻击

  • 中毒攻击:在中毒攻击中,攻击者在训练阶段会对深度学习模型产生影响。在这种类型的攻击中,训练样本被破坏或训练集被攻击者污染,以产生与原始数据分布不相容的分类模型;

  • 规避或试探性攻击:与中毒攻击相比,在试探性攻击中,攻击者在推理或测试阶段对深层学习模型产生影响。规避攻击是最常见的攻击类型,攻击者会精心设计对抗样本,导致深度学习模型错误分类,通常对预测具有较高的可信度。规避攻击还具有探索性,攻击者的目标是收集有关目标模型的信息,例如其参数、体系结构、损失函数等。最常见的探索性攻击是输入/输出攻击,攻击者向目标模型提供由其生成的对抗样本。然后,攻击者观察模型给出的输出,并尝试重新生成一个替代或代理模型,以便可以模仿目标模型。输入/输出攻击通常是执行黑盒攻击的第一步。

4.2.2 攻击者的知识

考虑到攻击者对目标模型的知识,可以进行三种类型的攻击分别是白盒攻击黑盒攻击灰盒攻击

  • 白盒攻击:攻击者可以完全访问模型甚至防御的参数和架构。由于采取了保护措施(例如,用户控制),以防止未经授权的人员访问系统组件,这种攻击场景在真实应用程序中可能是最不常见的。相比之下,白盒攻击通常是最强大的对抗攻击类型,因此,通常用于评估防御和/或分类模型在恶劣条件下的鲁棒性。

  • 黑盒攻击:攻击者既不能访问也不知道有关分类模型和防御方法的任何信息。黑盒攻击对攻击者施加了更多的限制,尽管如此,当针对部署的模型再现外部对抗性攻击时,黑盒攻击非常重要,而部署模型又能更好地代表真实世界的场景。尽管黑盒攻击的执行难度更大,但由于对抗样本的可转移性,攻击者仍然可以避开目标模型。利用这一特性,攻击者可以通过一个称为替代或代理模型的因果攻击创建一个经验模型,该模型的参数与目标模型的参数相似。

  • 灰盒攻击:在灰盒攻击中,攻击者可以访问分类模型,但不能访问任何有关防御方法的信息。灰盒攻击是评估防御和分类器的一种中间选择,因为与黑盒攻击相比,灰盒攻击施加了更大的威胁级别,但在向攻击者提供有关防御方法的所有信息时(如在白盒场景中执行的),灰盒攻击不会给攻击者带来很大的优势。

4.2.3 安全入侵

当对分类器执行对抗攻击时,安全侵犯通常与攻击者的目标相关联,并会影响目标分类器的完整性可用性隐私

  • 完整性入侵:这是对抗攻击最常见的侵犯行为,当由某个攻击者生成的对抗样本能够绕过现有的防御对策并导致目标模型错误分类,但不会损害系统的功能时,完整性会受到影响;

  • 可用性入侵:当系统功能受到破坏时,从而导致拒绝服务时发生。可用性入侵主要通过提高预测的不确定性来影响学习系统的可靠性;

  • 隐私入侵:当攻击者能够访问有关目标模型的相关信息时发生,例如其参数、体系结构和使用的学习算法。深度学习中的隐私侵犯与黑盒攻击密切相关,在黑盒攻击中,攻击者查询目标模型,以便对其进行反向工程,并生成一个代理模型,从而对对抗样本更接近原始数据分布。