学习笔记 | 描述分散趋势
描述性统计量 | 描述分散趋势
01 标准差:以平均值为基准来表示数据的离散程度。
- 标准差是离均差(x-u)平方和平均后的方根,用σ表示。
02 方差:以平均值为基准来表示数据的离散程度。
-
方差是标准差的平方; 标准差是方差的算术平方根。
存在问题
- 数值有时会变得过大。
- 单位变为原先单位的平方。
- 需要注意的是,在“多峰性分布”(即有数个峰值)的数据中,难以考证方差与标准差。因为,在这种数据中,有很多数值与平均值相差较大,以平均数为基准的数值难以确切表明数据与平均值的关系。
03 偏差
- 偏差的优点就在于,可以比较和测量标准不同的数据。
04 五大要数:研究数据离散性
研究数据整体的离散性时,最大值、最小值以及3个四分位数被称为“5大要数”。
四分位数的求法
(1)找出数据的最大值与最小值。
(2)找出数据的中位数→第二四分位数。
(3)求出中位数前半部分数据的中位数→第一四分位数。
(4)求出中位数后半部分数据的中位数→第三四分位数。
03 箱线图:以中位数为基准来表示数据离散程度。
- 被5大要数切分成的各区间,各包含了整体数据值的约25%,若每个区间的长度均等,则意味着数据整体的离散性是均匀的。反之,若各区间长度不均,则表明数据的离散程度有所偏离。