箱形图分析

反映原始数据分布的特征,可以进行多组数据分布特征的比较。

绘制方法:
箱形图分析

  • 上四分位点(Quartile):Q3Q_3
  • 中位数:Q2Q_2
  • 下四分位点:Q1Q_1
  • 四分位距(InterQuartile Range,IQR):IQR=Q3Q1IQR = Q_3-Q_1
  • 上边缘:非异常值范围内的最大值,Q3+1.5IQRQ_3+1.5IQR
  • 下边缘:非异常值范围内的最小值,Q11.5IQRQ_1-1.5IQR

作用:

异常值处理: 异常值被定义为小于Q11.5IQRQ_1-1.5IQR或大于Q3+1.5IQRQ_3+1.5IQR的值。

  • 箱形图的绘制依靠实际数据,不需要事先假定服从特定的分布形式,没有对数据作出任何限制性要求,只是真实直观地表现出数据形状的本来面貌。
  • 箱型图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐压性,多达25%的数据可以变得任意远而不会很大地扰动四分位数。