2020李宏毅学习笔记——30.Attack ML Models(4_8)

1.举一个栗子：

我们希望，把图片丢进去之后，不可以再说是小虎斑猫
用的network是50层的ResNet-50，是一个train好的，本来检测时好的，
经过一轮攻击后，update50次就说是鱼了，竟然非常肯定100分的说是鱼。
过程：
看上去新图片没有什么区别，但是我们用原图片减新图片，然后乘以50倍：
2020李宏毅学习笔记——30.Attack ML Models(4_8)
把猫变成键盘的例子：
问题可能出现在network比较弱吗？

2.如果不是加入攻击噪音，那么结果是：

随着杂序不断加大：
2020李宏毅学习笔记——30.Attack ML Models(4_8)

3.为什么小小改变，结果就截然不同了呢？

硬要解释的话，就是在一般的特征空间中，x0在附近移动，对于tiger cat的信心分数还是处于比较高的水平，但x0偏离原点太多，则可能其他class的信心分数会更高。这是随机的一个点。

但是由于特征空间是一个非常高维的空间，所以存在一个神奇方向，这个方向上tiger cat的信心分数高点非常狭窄，随便一偏离很容易就误判为其他class。
横坐标代表输入，纵坐标代表输出，也就是x属于某个分类的概率：
2020李宏毅学习笔记——30.Attack ML Models(4_8)
但这只是现象解释一下。也有人visualize了似乎确实存在这样的现象。但就这个现象为嘛会出现，还没有能被很好地解释。
有的人认为是不是来自于deep learning,但李老师又说不见得，总之啊，他们都搞不懂的事，我怎么会知道？

2020李宏毅学习笔记——30.Attack ML Models(4_8)

1.举一个栗子：

2.如果不是加入攻击噪音，那么结果是：

3.为什么小小改变，结果就截然不同了呢？

相关推荐