学习笔记 | 描述分散趋势

描述性统计量 | 描述分散趋势

01 标准差:以平均值为基准来表示数据的离散程度。

学习笔记 | 描述分散趋势
  • 标准差是离均差(x-u)平方和平均后的方根,用σ表示。

02 方差:以平均值为基准来表示数据的离散程度。

  • 方差是标准差的平方; 标准差是方差的算术平方根。
    学习笔记 | 描述分散趋势
存在问题
  • 数值有时会变得过大。
  • 单位变为原先单位的平方。
  • 需要注意的是,在“多峰性分布”(即有数个峰值)的数据中,难以考证方差与标准差。因为,在这种数据中,有很多数值与平均值相差较大,以平均数为基准的数值难以确切表明数据与平均值的关系。

03 偏差

学习笔记 | 描述分散趋势
  • 偏差的优点就在于,可以比较和测量标准不同的数据。

04 五大要数:研究数据离散性

研究数据整体的离散性时,最大值、最小值以及3个四分位数被称为“5大要数”。

学习笔记 | 描述分散趋势

四分位数的求法

(1)找出数据的最大值与最小值。
(2)找出数据的中位数→第二四分位数。
(3)求出中位数前半部分数据的中位数→第一四分位数。
(4)求出中位数后半部分数据的中位数→第三四分位数。

03 箱线图:以中位数为基准来表示数据离散程度。

学习笔记 | 描述分散趋势
  • 被5大要数切分成的各区间,各包含了整体数据值的约25%,若每个区间的长度均等,则意味着数据整体的离散性是均匀的。反之,若各区间长度不均,则表明数据的离散程度有所偏离。