两种寻找异常样本的方法 20.9.20
一、箱线图(Boxplot)
(一)基本概念
(1)最小值
(2)第1(上)四分位数Q1
位置:(n+1)/4(n是数据序列长度)
(3)中位数(Q2)
(4)第3(下)四分位数Q3
位置:(n+1)*3/4(n是数据序列长度)
(5)最大值
(二)实例
假设有数据集合num = c(1,2,3,4,5,6,7,20) n=8
(1)Q1
位置:
(
8
+
1
)
4
\frac{(8+1)}{4}
4(8+1)=2.25
说明上四分位数在第2.25个位置数,实际上这个数是不存在的,假想从第2个数到第3个数之间是均匀分布的。那么第2.25个数就是
第
二
个
数
∗
0.25
第二个数*0.25
第二个数∗0.25+
第
三
个
数
∗
0.75
第三个数*0.75
第三个数∗0.75,即Q1=
2
∗
0.25
2*0.25
2∗0.25+
3
∗
0.75
3*0.75
3∗0.75=0.5+2.25=2.75
(2)Q3
位置:
(
8
+
1
)
∗
3
4
\frac{(8+1)*3}{4}
4(8+1)∗3=6.75
原理同Q1,则Q3对应的具体的值是Q3=
0.75
∗
6
0.75*6
0.75∗6+
0.25
∗
7
0.25*7
0.25∗7=6.25。
(3)四分位距IQR
IQR=Q3-Q1=6.25-2.75=3.5
(4)下内限
下内限=Q1-1.5IQR=2.75-
1.5
∗
3.5
1.5*3.5
1.5∗3.5=-2.5
(5)上内限
上内限=Q3+1.5IQR=6.25+
1.5
∗
3.5
1.5*3.5
1.5∗3.5=11.5
(6)在[-2.5,11.5]区间外的数值为异常点,所以20为异常值点
二、LSTM + 无监督 +非参数异常阈值设定
(一)方法来源
《Detecting Spacecraft Anomalies Using LSTMs and Nonparametric Dynamic Thresholding》–2018年KDD
(二)方法介绍
第一步:用LSTM学习时序数据做预测
单通道模型
预测通道的值
第二步:收集每一步误差构成误差向量
以t+1时刻为例,计算 t +1时刻实际值与模型预测值(利用t-ls到t之间的特征值预测)之差,得到e(t),以此类推,得到向量e。
注意y (t)=x(t+1)</sup
第三步:对误差作加权平均的平滑处理
第四步:根据平滑后的数据计算阈值
第五步:高于阈值标为样本
部分内容来源:https://blog.****.net/WangZixuan1111/article/details/105046528/