《大数据分析原理与实践》——2.2 基本统计量

2.2 基本统计量

数据中的基本统计方法是基本统计量的计算,尽管简单,但是在一定程度上可以很好地反映出数据的特征和变化趋势。

2.2.1 全表统计量

根据反映出的数据特征类型可以将基本统计量分为两类:反映数据集中趋势的和反映数据波动大小的。

能够反映数据集中趋势的度量包括均值、中位数和众数。下面给出它们的定义。

均值的定义为:令x1,x2,…,xn为某数值属性X的n个观测值或者观测,该值集合的均值为

《大数据分析原理与实践》——2.2 基本统计量

有时,对于i=1,…,n,每个值xi可以与一个权值wi相关联。权值反映它们所依附的对应值的意义、重要性或出现的频率。在这种情况下,我们可以计算

《大数据分析原理与实践》——2.2 基本统计量

这称作加权算术均值或加权平均。

中位数的定义为:有序数据值的中间值,即把数据较高的一半与较低的一半分开的值。假设给定某属性X的N个值按递增排序。如果N是奇数,则中位数是该有序集的中间值;如果N是偶数,则中位数不唯一,它是最中间的两个值和它们之间的任意值。在数值属性的情况下,根据约定,中位数取作最中间两个值的平均值。

众数的定义为:数据集中出现最频繁的值。

三种统计量之间的比较见表2-1。

《大数据分析原理与实践》——2.2 基本统计量

能够反映数据散布情况的数据波动大小度量包括极差和方差(标准差)。

极差的定义为:设x1,x2,…,xn是某数值属性X上的观测的集合。该集合的极差是最大值与最小值之差。

方差的定义为:数值属性X的n个观测值x1,x2,…,xn的方差是

《大数据分析原理与实践》——2.2 基本统计量

《大数据分析原理与实践》——2.2 基本统计量

两种统计量之间的比较见表2-2。

《大数据分析原理与实践》——2.2 基本统计量

《大数据分析原理与实践》——2.2 基本统计量

2.2.2 皮尔森相关系数

上一节讨论的是针对单个属性的全表统计量,本节讨论衡量两个属性(在统计学中称为变量)之间关联关系的统计量。这个关联关系可以用相关系数来衡量。对于两个变量X和Y,如果X和Y没有任何关联关系,它们的相关系数为0;当X的值增大(减小)时,Y值相应地增大(减小),则两个变量为正相关,通常令其相关系数在0.00与1.00之间;当X的值增大(减小)时,Y值相应地减小(增大),则两个变量为负相关,通常令其相关系数在-1.00与0.00之间。

相关系数的绝对值越大,相关度越强。相关系数越接近于1或-1,相关度越强;相关系数越接近于0,相关度越弱。

相关系数可以用许多统计值来测量,最常用的是皮尔森相关系数,它是英国统计学家皮尔森于20世纪提出的一种计算直线相关的方法,也称为皮尔森相关或积差相关(或积矩相关),两个变量X和Y之间的皮尔森相关系数定义为两个变量之间的协方差和标准差的商。

《大数据分析原理与实践》——2.2 基本统计量

上式定义了总体相关系数,常用希腊小写字母ρ(rho)作为代表符号。估算样本的协方差和标准差,可得到样本相关系数(样本皮尔森系数),常用英文小写字母r代表

《大数据分析原理与实践》——2.2 基本统计量

r亦可由(Xi,Yi)样本点的标准分数均值估计,得到与上式等价的表达式

《大数据分析原理与实践》——2.2 基本统计量

《大数据分析原理与实践》——2.2 基本统计量

皮尔森相关系数的变化范围为-1~1。如果系数的值为1,就意味着X和Y可以理想地由直线方程来描述,所有的数据点都很好地落在一条直线上,且Y随着X的增加而增加;相反,系数的值为-1意味着所有的数据点都落在直线上,但Y随着X的增加而减少。此外,系数的值为0意味着两个变量之间没有线性关系。

《大数据分析原理与实践》——2.2 基本统计量