【数据挖掘数学基础】01描述统计(中)
目录
三、平均指标
1、定义:一组数据向其中心值靠拢的趋势。
2、众数和分位数:
- 众数:属于分类数据的指标,出现次数最多的值。符号:Mo;众数的缺点:不唯一性,即有时候太多,有时候没有;优点:不受极端值影响。
- 分位数:符号Me。根据数据位置进行划分, 可以分二等分、三等分、四等分……,而分二等分的称二分位数(也叫中位数),四等分叫四分位数、十分位数、百分位数……
计算方法:设数据个数为n则:
中位数位置=(n+1)/2
多分位数简便方法:上四分位数的位置:n/4
下四分位数的位置:3n/4
(注意:简便方法会出现不等分的情况。)
例子:9个家庭的人均月收入数据,取四分位数
原始数据:1500,750,780,1080,850,960,2000,1250,1630
排序: 750,780,850,960,1080,1250,1500,1630,2000
位置: 1 2 3 4 5 6 7 8 9
由简便公式得:=9/4=2.25
=3*9/4=6.75
3、均值(平均数)
定义:属于数值型数据的指标,平均数是所有数据参与的同级运算,平均数是有很多种,有算术平均数(简单平均数和加权平均数是属于一种,别的平均数也是有分加权和简单,只是数值是否分组,分组用加权),调和平均和几何平均,他们都统称幂平均数,后面将会解释为什么统称幂平均数;
3.1算术平均数:
举个例子:
算术平均数的特点:
- 易受极端值的影响,且受max影响比min影响要大
- 各变量值与均值的离差之和等于0,说明算术平均数在数组中是在比较重心的位置。
3.2调和平均数:
例子:完成一项工程,甲独立完成需要3天,乙独立完成需要4天,已知丙以甲和乙的平均工作效率来完成,问丙需要多少天完成?
【解答】甲平均每天完成量:1/3
乙平均每天完成量:1/4
甲和乙平均每天完成量:(1/3+1/4)/2
丙完成天数:1/(1/3+1/4)/2
理解调和平均数:
调和平均数即将每个数值变量转成倒数,求和后除以n(样本数)再转成倒数。
调和平均数特点:
- 易受极端值影响,受min影响比max影响要大;
- 同一数组调和平均数总比算术平均数小;
- 常用于效率数据的研究,如项目完成平均数,人均效率;
- 变量不能为0;
3.3几何平均数:
例子:银行推出一款理财产品,第一年存入理财金,一年后将会返回3倍金额,如果返回的3倍金额不取出,继续存在银行,第二年将会以4倍金额返还。那么这款产品这两年是平均以几倍金额返还。
【解答】假定存入1元,一年后得到3元,两年后得到12元。第一年是3倍,第二年是4倍,设平均值G倍得:
1*3*4=1*G*G
3*4=G^2
G =(3*4)^0.5=3.4641
从例子可以推到出求这类问题应该是将各个数值相乘再开n次方根号。
几何平均数特点:
- 易受极端值影响,受min和max影响差不多,且比算术平均数和调和平均数要小;
- 适用于对比率数据的平均,主要用于计算平均增长率;
- 数组中有0数值无法计算;
3.4幂平均数:
- 幂平均是所有平均数的统称,他们都可以由幂平均数换化,k是实数,还可以等于2、3等,那么平均数类型是很多的;
- 从幂平均公式可以看出,k越大,所得平均值就会越到,所以算术平均值>几何平均值>调和平均值,又侧面可以解释,算术平均值受max极端值影响大,调和平均值受min极端值影响大;
这章中了解到那么多可以描述集中趋势的指标,是不是也可以运用到华润万家的案例中去呢,比如:50多万条消费记录中,哪些产品更好卖,按时间看销售额占比(分为数),生鲜产品平均几天售罄(调和平均数),今年销售额平均增长率是多少(几何平均),平均每个月销售额(算数平均)等。