2020李宏毅学习笔记——30.Attack ML Models(4_8)
1.举一个栗子:
我们希望,把图片丢进去之后,不可以再说是小虎斑猫
用的network是50层的ResNet-50,是一个train好的,本来检测时好的,
经过一轮攻击后,update50次就说是鱼了,竟然非常肯定100分的说是鱼。
过程:
看上去新图片没有什么区别,但是我们用原图片减新图片,然后乘以50倍:
把猫变成键盘的例子:
问题可能出现在network比较弱吗?
2.如果不是加入攻击噪音,那么结果是:
随着杂序不断加大:
3.为什么小小改变,结果就截然不同了呢?
硬要解释的话,就是在一般的特征空间中,x0在附近移动,对于tiger cat的信心分数还是处于比较高的水平,但x0偏离原点太多,则可能其他class的信心分数会更高。这是随机的一个点。
但是由于特征空间是一个非常高维的空间,所以存在一个神奇方向,这个方向上tiger cat的信心分数高点非常狭窄,随便一偏离很容易就误判为其他class。
横坐标代表输入,纵坐标代表输出,也就是x属于某个分类的概率:
但这只是现象解释一下。也有人visualize了似乎确实存在这样的现象。但就这个现象为嘛会出现,还没有能被很好地解释。
有的人认为是不是来自于deep learning,但李老师又说不见得,总之啊,他们都搞不懂的事,我怎么会知道?