【数据挖掘数学基础】01描述统计(中)

目录

三、平均指标

1、定义:一组数据向其中心值靠拢的趋势。

2、众数和分位数:

3、均值(平均数)

3.1算术平均数:

3.2调和平均数:

3.3几何平均数:

3.4幂平均数:


三、平均指标

1、定义:一组数据向其中心值靠拢的趋势

2、众数和分位数:

  • 众数:属于分类数据的指标,出现次数最多的值。符号:Mo;众数的缺点:不唯一性,即有时候太多,有时候没有;优点:不受极端值影响。
  • 分位数:符号Me。根据数据位置进行划分, 可以分二等分、三等分、四等分……,而分二等分的称二分位数(也叫中位数),四等分叫四分位数、十分位数、百分位数……

【数据挖掘数学基础】01描述统计(中)

计算方法:设数据个数为n则:

中位数位置=(n+1)/2

多分位数简便方法:上四分位数【数据挖掘数学基础】01描述统计(中)的位置:n/4

                                  下四分位数【数据挖掘数学基础】01描述统计(中)的位置:3n/4

(注意:简便方法会出现不等分的情况。)

例子:9个家庭的人均月收入数据,取四分位数

原始数据:1500,750,780,1080,850,960,2000,1250,1630

排序: 750,780,850,960,1080,1250,1500,1630,2000

位置:   1      2     3      4      5       6       7       8       9

由简便公式得:【数据挖掘数学基础】01描述统计(中)=9/4=2.25

                           【数据挖掘数学基础】01描述统计(中)=3*9/4=6.75

3、均值(平均数)

定义:属于数值型数据的指标,平均数是所有数据参与的同级运算,平均数是有很多种,有算术平均数(简单平均数和加权平均数是属于一种,别的平均数也是有分加权和简单,只是数值是否分组,分组用加权),调和平均和几何平均,他们都统称幂平均数,后面将会解释为什么统称幂平均数;

3.1算术平均数:

【数据挖掘数学基础】01描述统计(中)

举个例子:

【数据挖掘数学基础】01描述统计(中)

算术平均数的特点:

  • 易受极端值的影响,且受max影响比min影响要大
  • 各变量值与均值的离差之和等于0,说明算术平均数在数组中是在比较重心的位置。

3.2调和平均数:

【数据挖掘数学基础】01描述统计(中)

例子:完成一项工程,甲独立完成需要3天,乙独立完成需要4天,已知丙以甲和乙的平均工作效率来完成,问丙需要多少天完成?

【解答】甲平均每天完成量:1/3

        乙平均每天完成量:1/4

        甲和乙平均每天完成量:(1/3+1/4)/2

        丙完成天数:1/(1/3+1/4)/2

理解调和平均数:

调和平均数即将每个数值变量转成倒数,求和后除以n(样本数)再转成倒数。

调和平均数特点:

  • 易受极端值影响,受min影响比max影响要大;
  • 同一数组调和平均数总比算术平均数小;
  • 常用于效率数据的研究,如项目完成平均数,人均效率;
  • 变量不能为0;

3.3几何平均数:

【数据挖掘数学基础】01描述统计(中)

例子:银行推出一款理财产品,第一年存入理财金,一年后将会返回3倍金额,如果返回的3倍金额不取出,继续存在银行,第二年将会以4倍金额返还。那么这款产品这两年是平均以几倍金额返还。

【解答】假定存入1元,一年后得到3元,两年后得到12元。第一年是3倍,第二年是4倍,设平均值G倍得:

      1*3*4=1*G*G

        3*4=G^2

         G =(3*4)^0.5=3.4641

从例子可以推到出求这类问题应该是将各个数值相乘再开n次方根号。

几何平均数特点:

  • 易受极端值影响,受min和max影响差不多,且比算术平均数和调和平均数要小;
  • 适用于对比率数据的平均,主要用于计算平均增长率;
  • 数组中有0数值无法计算;

3.4幂平均数:

【数据挖掘数学基础】01描述统计(中)

  • 幂平均是所有平均数的统称,他们都可以由幂平均数换化,k是实数,还可以等于2、3等,那么平均数类型是很多的;
  • 从幂平均公式可以看出,k越大,所得平均值就会越到,所以算术平均值>几何平均值>调和平均值,又侧面可以解释,算术平均值受max极端值影响大,调和平均值受min极端值影响大;

这章中了解到那么多可以描述集中趋势的指标,是不是也可以运用到华润万家的案例中去呢,比如:50多万条消费记录中,哪些产品更好卖,按时间看销售额占比(分为数),生鲜产品平均几天售罄(调和平均数),今年销售额平均增长率是多少(几何平均),平均每个月销售额(算数平均)等。