【数据挖掘数学基础】01描述统计(下)
目录
1、定义:反映各变量值远离其中心值的程度,是数据分布的一种重要特征,从另一个侧面说明了集中趋势测度值的代表程度。
2.3方差和标准差:方差是平均差的平方,标准差是方差的算数平方根。方差和标准差还分总体和样本两种。这两个指标是计算数据离散程度最常用的指标。
1、偏态:是值数据分布偏斜程度,由K Pearson(卡·皮尔逊)提出。符号:SK。
2、峰态:是指数据分布的扁平程度,也是有K Pearson提出。符号K表示。
四、离散程度
1、定义:反映各变量值远离其中心值的程度,是数据分布的一种重要特征,从另一个侧面说明了集中趋势测度值的代表程度。
2、常见指标:
2.1极差:一组数据最大值与最小值之差;
- 符号:R
- 公式:R=max(xi)-min(xi)
- 理解:是测度离散程度的最简单的方法,但极易受极端值的影响,且未考虑数据的分布。
2.2平均差:各变量与其均值离差绝对值的平均数;
- 符号:Md
- 公式:未分组数据:
分组数据:(Mi :组中值)
- 理解:平均差是一个很好能表现数据离散程度的值,Md越大数据越分散;但因为公式中有绝对值,在数学公式运算中,一般绝对值都尽量要想办法去掉,所以该公式的数学性质较差,一般在实际应用中很少用,那是否有能保留该公式的特征又可以约减绝对值呢,平方就能解决这个问题,所以便有了方差。
- 注意⚠️:标准差和平均差的公式是不一样的,不要搞混淆了。
2.3方差和标准差:方差是平均差的平方,标准差是方差的算数平方根。方差和标准差还分总体和样本两种。这两个指标是计算数据离散程度最常用的指标。
- 符号:总体方差:σ2,总体标准差:σ
样本方差:s2,样本标准差:s
- 公式:
【思考】为什么样本分母是n-1而不是n?
【解答】因为样本是总体的一部分,且样本受(总体平均值)的约束,所以*取值的个数变会少一个,所以n-1。记住,有出现就会有*度的出现。
【Excel应用-例子】
(未分组的情况)
(分组情况:excel是没有这个函数的,需要我们算出组中值,然后计算加权平均数,才能求出样本方差和样本标准差)
2.4离散系数:又称变异系数,是标准差与均值之比。
- 符号:
- 公式:=S/
- 例子:以下两组数据对比离散程度
A组:1,2,3
B 组:10,20,30
【解答】
用方差和标准差公式可以看出b组数据比a组数据离散,但如果我们把这两组加上一个单位呢,a组是元,b组是角,那还是b组数据比a组数据离散吗?因此这里我们需要给他们再除以各自的均值。即:;可以看出a、b组数据的离散程度是一样的。
【理解】:当数据单位一样,适用场景一样的话,可以直接用方差或标准差,而数据单位不一样,适用场景也不同的话,应该用离散系数;离散系数是对数据相对离散程度的测度,消除了数据水平不同和数据计量单位不同对离散程度的影响;
我们了解这么多描述数据离散程度的指标,在华润万家案例中,我们也可以提出,研究华润万家的消费者消费金额的差距,消费者层次是否稳定;
五、偏态与峰态
1、偏态:是值数据分布偏斜程度,由K Pearson(卡·皮尔逊)提出。符号:SK。
公式:
(不用背,一般统计工具会有函数,excel中的SEKW()函数是对未分组的偏态系数计算)
理解:(下图横坐标是变量值,纵坐标是个数)
- 当SK=0对称分布,众数Mo=中位数Me=均值;
- 当SK<0左偏分布,均值<中位数Me<众数MO, 中位数和众数不受极端值影响,均值受极小值影响较大,左偏极端值是最小值,因此拉低均值。
- 当SK>0右偏分布,众数MO<中位数Me<均值;均值受极大值影响较大,右偏极端值是最大值,因此拉高均值。
- 当数据对称分布或接近对称时,求平均指标一般用均值,而当分布偏差程度较大时,一般用众数或中位数;
- 偏态程度:0<|SK|<0.5低度偏态分布; 0.5<|SK|x≤1中等偏态分布, |SK|>1高度偏态分布;
2、峰态:是指数据分布的扁平程度,也是有K Pearson提出。符号K表示。
公式:(统计工具也有函数,excel中KURT()函数是未分组数据峰态系数统计)
理解:
描述统计就告一段落,附上一份描述统计案例。
【描述统计-案例分析过程】链接:https://pan.baidu.com/s/1GkWKh7cA_1lbT4ZHWXiwVA 密码:kyjd
【描述统计案例-老师的模版】链接:https://pan.baidu.com/s/11Vz6Q6dP3K5iZQmel45yLA 密码:yiyj