[paper]UPSET and ANGRI:Breaking High Performance Image Classiﬁers

提出了两种攻击算法，第一种是针对输出类别生成通用扰动（定向攻击），第二种针对不同图像生成特定扰动（定向攻击）。

UPSET:Universal Perturbations for Steering to Exact Targets
UPSET网络为针对原始图像生成具有通用扰动的对抗样本，且可以使模型误分类为指定的目标类别。

$x$ ：原始图像
$t$ ：目标类别
$\hat{x}$ ：对抗样本
对抗扰动： $r_j，j∈{1,2,⋯,n}$ 即生成第 $j$ 个目标分类的扰动
残差生成网络： $R，r_t=R(t)$
$U$ ：UPSET网络
扰动叠加计算结果归一化到[−1,1]，
$s$ ：比例参数，用于调节扰动 $r$ 的大小，一般取值为2。
整体训练流程如下图所示：
ANGRI: Antagonistic Network for Generating Rogue Images
ANGRI网络为针对原始图像生成具有特定扰动的对抗样本，且可以使模型误分类为指定的目标类别。
$\hat{x}=A(x,t)$
原始图像： $x$
图像类别： $c_x$
目标类别： $t，t≠c_x$
$A$ ：ANGRI网络
整体训练流程如下图所示：

损失函数（以上两个方法都用的这个损失评估函数）：

有 $m$ 个预训练的分类器 $C_i$ ，表示对抗样本 $\hat{x}$ 输出的分类概率 $p_i$ ， $p_i=C_i（\hat{x}）$
误差函数由两部分组成， $L_C$ 表示（错误）分类损失， $L_F$ 表示保真度损失。
$L_C$ 是交叉熵损失。如果模型无法正确预测为目标类别 $t$ ，则 $L_C$ 会惩罚生成网络
$L_F$ 是 $x$ 和 $\hat{x}$ 之间差异的范数，这确保了输入和输出图像看起来相似。
权重 $w$ 用来折中两个损失指标，即图像保真度和对抗扰动的强弱
$k$ 的选择应使其不会促进稀疏性，否则残差将在较小的区域中累积并且非常明显。
如果 $k=2$ ，那么就是 $L2$ 范数，可以由 $\left \| R(x,t) \right \|_{2}^{2}$ 替换。

实验指标：

Targeted fooling rate (TFR): 定向攻击成功率
Misclassiﬁcation rate (MR): 模型分类错误率
Fidelity score (FS): 对抗样本和原始图像的相似度
Conﬁdence （C）: 模型误分类时的平均置信度

实验结果：
[paper]UPSET and ANGRI:Breaking High Performance Image Classiﬁers

[paper]UPSET and ANGRI:Breaking High Performance Image Classiﬁers

相关推荐