您的位置: 首页 > 文章 > 【数据挖掘数学基础】01描述统计（下）

【数据挖掘数学基础】01描述统计（下）

分类: 文章 • 2024-08-13 09:19:40

目录

四、离散程度

1、定义：反映各变量值远离其中心值的程度，是数据分布的一种重要特征，从另一个侧面说明了集中趋势测度值的代表程度。

2、常见指标：

2.1极差：一组数据最大值与最小值之差；

2.2平均差：各变量与其均值离差绝对值的平均数；

2.3方差和标准差：方差是平均差的平方，标准差是方差的算数平方根。方差和标准差还分总体和样本两种。这两个指标是计算数据离散程度最常用的指标。

2.4离散系数：又称变异系数，是标准差与均值之比。

五、偏态与峰态

1、偏态：是值数据分布偏斜程度，由K Pearson（卡·皮尔逊）提出。符号：SK。

2、峰态：是指数据分布的扁平程度，也是有K Pearson提出。符号K表示。

四、离散程度

1、定义：反映各变量值远离其中心值的程度，是数据分布的一种重要特征，从另一个侧面说明了集中趋势测度值的代表程度。

2、常见指标：

2.1极差：一组数据最大值与最小值之差；

符号：R
公式：R=max(xi)-min(xi)
理解：是测度离散程度的最简单的方法，但极易受极端值的影响，且未考虑数据的分布。

2.2平均差：各变量与其均值离差绝对值的平均数；

符号：Md
公式：未分组数据：

分组数据：【数据挖掘数学基础】01描述统计（下）（Mi :组中值）

理解：平均差是一个很好能表现数据离散程度的值，Md越大数据越分散；但因为公式中有绝对值，在数学公式运算中，一般绝对值都尽量要想办法去掉，所以该公式的数学性质较差，一般在实际应用中很少用，那是否有能保留该公式的特征又可以约减绝对值呢，平方就能解决这个问题，所以便有了方差。
注意⚠️：标准差和平均差的公式是不一样的，不要搞混淆了。

2.3方差和标准差：方差是平均差的平方，标准差是方差的算数平方根。方差和标准差还分总体和样本两种。这两个指标是计算数据离散程度最常用的指标。

符号：总体方差：σ2，总体标准差：σ

样本方差：s2，样本标准差：s

公式：

【数据挖掘数学基础】01描述统计（下）

【数据挖掘数学基础】01描述统计（下）

【思考】为什么样本分母是n-1而不是n？

【解答】因为样本是总体的一部分，且样本受【数据挖掘数学基础】01描述统计（下）（总体平均值）的约束，所以*取值的个数变会少一个，所以n-1。记住，有出现就会有*度的出现。

【Excel应用-例子】

（未分组的情况）

【数据挖掘数学基础】01描述统计（下）

（分组情况：excel是没有这个函数的，需要我们算出组中值，然后计算加权平均数，才能求出样本方差和样本标准差）

【数据挖掘数学基础】01描述统计（下）

2.4离散系数：又称变异系数，是标准差与均值之比。

符号：
公式：=S/
例子：以下两组数据对比离散程度

A组：1，2，3

B 组：10，20，30

【解答】【数据挖掘数学基础】01描述统计（下）

用方差和标准差公式可以看出b组数据比a组数据离散，但如果我们把这两组加上一个单位呢，a组是元，b组是角，那还是b组数据比a组数据离散吗？因此这里我们需要给他们再除以各自的均值。即：【数据挖掘数学基础】01描述统计（下）；可以看出a、b组数据的离散程度是一样的。

【理解】：当数据单位一样，适用场景一样的话，可以直接用方差或标准差，而数据单位不一样，适用场景也不同的话，应该用离散系数；离散系数是对数据相对离散程度的测度，消除了数据水平不同和数据计量单位不同对离散程度的影响；

我们了解这么多描述数据离散程度的指标，在华润万家案例中，我们也可以提出，研究华润万家的消费者消费金额的差距，消费者层次是否稳定；

五、偏态与峰态

1、偏态：是值数据分布偏斜程度，由K Pearson（卡·皮尔逊）提出。符号：SK。

公式：【数据挖掘数学基础】01描述统计（下）

（不用背，一般统计工具会有函数，excel中的SEKW()函数是对未分组的偏态系数计算）

理解：（下图横坐标是变量值，纵坐标是个数）

当SK=0对称分布，众数Mo=中位数Me=均值；

【数据挖掘数学基础】01描述统计（下）

当SK<0左偏分布，均值<中位数Me<众数MO, 中位数和众数不受极端值影响，均值受极小值影响较大，左偏极端值是最小值，因此拉低均值。

【数据挖掘数学基础】01描述统计（下）

当SK>0右偏分布，众数MO<中位数Me<均值;均值受极大值影响较大，右偏极端值是最大值，因此拉高均值。

【数据挖掘数学基础】01描述统计（下）

当数据对称分布或接近对称时，求平均指标一般用均值，而当分布偏差程度较大时，一般用众数或中位数；
偏态程度：0<|SK|<0.5低度偏态分布； 0.5<|SK|x≤1中等偏态分布， |SK|>1高度偏态分布；

2、峰态：是指数据分布的扁平程度，也是有K Pearson提出。符号K表示。

公式：（统计工具也有函数，excel中KURT()函数是未分组数据峰态系数统计）

【数据挖掘数学基础】01描述统计（下）

理解：

【数据挖掘数学基础】01描述统计（下）

描述统计就告一段落，附上一份描述统计案例。

【描述统计-案例分析过程】链接:https://pan.baidu.com/s/1GkWKh7cA_1lbT4ZHWXiwVA 密码:kyjd

【描述统计案例-老师的模版】链接:https://pan.baidu.com/s/11Vz6Q6dP3K5iZQmel45yLA 密码:yiyj