统计思维(实例3)——分布建模

前面我们使用的分布都是基于有限样本的经验观察,因此称为经验分布(empirical distribution)。在经验分布之外还有分析分布(analytic distribution),分析分布的CDF(累积分布函数)是一个数学函数,分析分布可以用作经验分布的建模。

指数分布

指数分布的CDF为:

CDF(x) = 1 - e^{-\lambda x}CDF(x)=1eλx

参数\lambdaλ决定了分布的形状。下图展示了当\lambdaλ=0.5、1和2时CDF的形状。 统计思维(实例3)——分布建模

统计思维(实例3)——分布建模
图1 不同参数的指数分布的CDF

现实世界中,如果我们观察一系列事件,对事件发生的时间间隔,即到达间隔(interarrival time)进行测量,可能会得到指数分布。

举例说明,我们看看婴儿出生的到达时间间隔。1997年12月18日,澳大利亚布里斯班的一家医院有44个婴儿出生,当地报纸报道了这些婴儿的出生时间。下图展示出生间隔的CDF。

统计思维(实例3)——分布建模统计思维(实例3)——分布建模
图2 出生间隔CDF

如果认为一个数据集是指数分布,那么绘制其CDF补函数时,预期看到的函数将是:

y \approx e^{-\lambda x}yeλx

两边取对数,得到:

logy \approx -\lambda xlogyλx

下图展示婴儿出生间隔的CDF补函数: 统计思维(实例3)——分布建模

统计思维(实例3)——分布建模
图3 出生间隔以log-y为纵轴的CDF

上图中的线不是很直,说明指数分布并不是这组数据的完美模型。参数\lambdaλ可以解释为一个比率,即事件在一个时间单元内发生的平均次数。

正态分布

正态分布(normal distribution)也称为高斯分布,它由两个参数决定:均值μ和标准差σ,μ=0且σ=1的正态分布称为标准正态分布。下图展示不同参数的正态分布的CDF,这些曲线表现出的S形就是正态分布的显著特征。 统计思维(实例3)——分布建模

统计思维(实例3)——分布建模
图4 一组具有不同参数的正态分布的CDF

前文,我们研究了全国家庭增长调查中新生儿体重的分布,下图展示了所有成功生产的新生儿体重的经验CDF,以及具有相同均值和方差的正态分布的CDF。 统计思维(实例3)——分布建模

统计思维(实例3)——分布建模
图5 使用正态模型的新生儿体重CDF

使用正态分布作为这个数据集的模型非常合适,在低于第10百分位数的部分,数据和模型之间存在差距。相比正态分布中的期望值,实际数据中体重较轻的新生儿更多。

对于指数分布和其他分析分布,可以通过简单转换来验证一个分析分布模型是否适用于一个数据集。对于正态分布则不存在这样的转换,可以使用另外一种方法:正态概率图。

生成正态概率图的简单方法如下:

(1) 将样本中的值排序; (2) 从一个标准正态分布(μ=0, σ=1),生成一个随机样本并排序,样本大小与需要建模的样本一样; (3) 绘制样本的排序值和随机值。

如果样本的分布接近正态分布,那么绘制结果将为一条直线,截距为mu,斜率为sigma。

对数正态分布

如果一组值的对数符合正态分布,那么这组值就符合对数正态分布(lognormal distribution)。对数正态分布的CDF和正态分布的CDF一样,只不过将公式中的xx替换为logxlogx。对数正态分布的参数通常写为\muμ\sigmaσ,但这两个参数并不是均值和标准差。对数正态分布的均值为exp(\mu+\sigma^2/2)exp(μ+σ2/2),标准差的公式比较复杂。

如果一个样本近似对数正态分布,那么以log-xlogx为纵轴绘制其CDF,得到的图形会具备正态分布的特征。要测试样本与对数正态模型的拟合度,可以用样本中值的log值绘制一个正态概率图。

我们看看成年人的体重分布,这个分布大致符合对数正态分布。下图左展示了使用线性刻度的成年人体重的分布和正态模型,下图右使用对数刻度展示了同样的分布和对数正态模型。对数正态模型更符合成年人体重分布,但是我们看到两种模型在拟合度上的差别并不明显。

统计思维(实例3)——分布建模统计思维(实例3)——分布建模
图6 使用线性刻度(左)和对数刻度(右)成年人体重的CDF

下图展示了成年人体重w及其对数log_{10}wlog10w的正态概率图。在均值的几个标准差范围内,对数正态分布与数据吻合较好,但是在尾部也出现了偏离。

统计思维(实例3)——分布建模统计思维(实例3)——分布建模
图7 使用线性刻度(左)和对数刻度(右)的成年人体重正态概率图

Pareto分布

Pareto分布是以经济学家Vilfredo Pareto的名字命名的。Pareto最初使用这个模型描述财富分布,之后人们用这个模型描述各种自然和社会科学现象。Pareto分布的CDF为:

CDF(x)=1 - \left(\frac{x}{x_m}\right)^{-\alpha}CDF(x)=1(xmx)α

参数x_mxm\alphaα决定了分布的位置和形状,x_mxm是分布中可能出现最小值。下图展示了x_m=0.5xm=0.5,具有不同\alphaα值的Pareto分布的CDF。

统计思维(实例3)——分布建模统计思维(实例3)——分布建模
图8 具有不同参数的Pareto分布的CDF

对于符合Pareto分布的一个样本,如果使用线性刻度绘制其CCDF(CDF补函数),那么预期会看到的函数如下:

y \approx \left(\frac{x}{x_m}\right)^{-\alpha}y(xmx)α

公式两边取对数,可以得到:

logy \approx -\alpha(logx-logx_m)logyα(logxlogxm)

因此,如果以logx为横轴,logy为纵轴,那么得到的函数图形会近似一条直线,斜率为-\alphaα,截距为\alpha logx_mαlogxm

下图展示了横轴和纵轴都使用对数刻度的人口CCDF。图中人口最小的1%城镇,即小于10^{-2}102的部分,基本是一条直线,即城镇人口分布的尾部符合Pareto模型。

统计思维(实例3)——分布建模统计思维(实例3)——分布建模
图9 横轴和纵轴都使用对数刻度的城镇人口的CCDF

分析模型是一种数据压缩形式。如果模型很好地拟合了一个数据集,那么我们只需几个参数便可对大量的数据进行概括。但所有的模型都是不完美的。如果模型描述了真实世界的相关特征,省略了不必要的细节,那么模型是有用的。


参考文献:

    统计思维. Allen B.Downey. 金迎 译

统计思维(实例3)——分布建模