异常侦测anomaly detection

2019spring李宏毅老师的机器学习课程 http://speech.ee.ntu.edu.tw/~tlkagk/courses.html

学习进度：

2019.3.29 ：1、anomaly detection（异常侦测系统）的创建过程：

2、评价Anomaly Detection系统好坏的方法：

2019.3.30：待补充

2019.4.2 ：μ、∑的计算方法

Attack and Defense

1、anomaly detection（异常侦测系统）的创建过程：

output最高的分数是信心分；

判断distribution平不平均，算熵（entropy）比方差更合适；

如何建立一个anomaly detection ？

有一组训练集（Training Set）→Train a classifier →obtain confidence score c(x)

→根据信心分，打造异常侦测系统：f(x)

→Dev Set（这里要有正常数据，和不正常数据），用Dev Set 来决定 λ 的值

→ 系统上线

不能拿正确率来衡量Anomaly Detection 的好坏。（现实中如大气侦测等是很少有不正常数据的，可能几千万都是好数据）

2、评价Anomaly Detection系统好坏的方法：

detected&Normal （右上角）这一格指 “正常的内容被判为异常”；→false

NotDet&Anomaly（左下角）这一格指 “异常的内容未被侦测出来”→ missing

最终，用cost table（扣分制）评价系统好坏；不同的情景不同任务有不同的cost table

（不同情境：检测图片是否匹配，往往采用上面的cost table A，即一个missing扣一分，一个false扣100分。

但如果是用于癌症的检测，会采用cost table B，missing的扣分比重需要很大，一个missing扣100分；

因为得了癌症但是未被检测出来的代价很大。但没得癌症被误诊为患病的代价没那么大）

μ、的计算方法

异常侦测anomaly detection

上图为最终的f(x)分布，其中λ为某一条等高线，等高线内的为normal，等高线外为anomaly

在上面的例子中，只考虑了两个指标“无*发言”、“说垃圾话”；事实上，会有更多指标，最终的模型不仅是二维的。

Attack and Defense

异常侦测anomaly detection

无目标攻击：使得到的答案离正确目标越远越好；

有目标攻击，使答案离正确答案越远且离错误答案越近。

限制：x' 要越接近x^0越好

异常侦测anomaly detection

L有两种取值方式：L2-norm 、 L-infinity

计算公式见上图左侧；

右下角为举例，计算得到左边的4个小色块和右上的4个小色块的 L2-norm 与

左边的4个小色块和右下的4个小色块的 L2-norm 相等。

但左边的4个小色块和右上的4个小色块的 L-infinity 明显比

左边的4个小色块和右下的4个小色块的 L-infinity 要小。（可见L-infinity更符合人眼直观的判断）。

但，实际任务需求中，要根据需求使用不同的L取值方法。

今天看到一句话：盲目追逐热点容易误入陷阱，要巩固基础、寻找擅长领域和机器学习交叉点。

异常侦测anomaly detection

1、anomaly detection（异常侦测系统）的创建过程：

2、评价Anomaly Detection系统好坏的方法：

μ、的计算方法

Attack and Defense

相关推荐