统计思维(实例3)——分布建模
前面我们使用的分布都是基于有限样本的经验观察,因此称为经验分布(empirical distribution)。在经验分布之外还有分析分布(analytic distribution),分析分布的CDF(累积分布函数)是一个数学函数,分析分布可以用作经验分布的建模。
指数分布
指数分布的CDF为:
参数λ决定了分布的形状。下图展示了当λ=0.5、1和2时CDF的形状。
图1 不同参数的指数分布的CDF
现实世界中,如果我们观察一系列事件,对事件发生的时间间隔,即到达间隔(interarrival time)进行测量,可能会得到指数分布。
举例说明,我们看看婴儿出生的到达时间间隔。1997年12月18日,澳大利亚布里斯班的一家医院有44个婴儿出生,当地报纸报道了这些婴儿的出生时间。下图展示出生间隔的CDF。
图2 出生间隔CDF
如果认为一个数据集是指数分布,那么绘制其CDF补函数时,预期看到的函数将是:
两边取对数,得到:
下图展示婴儿出生间隔的CDF补函数:
图3 出生间隔以log-y为纵轴的CDF
上图中的线不是很直,说明指数分布并不是这组数据的完美模型。参数λ可以解释为一个比率,即事件在一个时间单元内发生的平均次数。
正态分布
正态分布(normal distribution)也称为高斯分布,它由两个参数决定:均值μ和标准差σ,μ=0且σ=1的正态分布称为标准正态分布。下图展示不同参数的正态分布的CDF,这些曲线表现出的S形就是正态分布的显著特征。
图4 一组具有不同参数的正态分布的CDF
前文,我们研究了全国家庭增长调查中新生儿体重的分布,下图展示了所有成功生产的新生儿体重的经验CDF,以及具有相同均值和方差的正态分布的CDF。
图5 使用正态模型的新生儿体重CDF
使用正态分布作为这个数据集的模型非常合适,在低于第10百分位数的部分,数据和模型之间存在差距。相比正态分布中的期望值,实际数据中体重较轻的新生儿更多。
对于指数分布和其他分析分布,可以通过简单转换来验证一个分析分布模型是否适用于一个数据集。对于正态分布则不存在这样的转换,可以使用另外一种方法:正态概率图。
生成正态概率图的简单方法如下:
(1) 将样本中的值排序; (2) 从一个标准正态分布(μ=0, σ=1),生成一个随机样本并排序,样本大小与需要建模的样本一样; (3) 绘制样本的排序值和随机值。
如果样本的分布接近正态分布,那么绘制结果将为一条直线,截距为mu,斜率为sigma。
对数正态分布
如果一组值的对数符合正态分布,那么这组值就符合对数正态分布(lognormal distribution)。对数正态分布的CDF和正态分布的CDF一样,只不过将公式中的x替换为logx。对数正态分布的参数通常写为μ和σ,但这两个参数并不是均值和标准差。对数正态分布的均值为exp(μ+σ2/2),标准差的公式比较复杂。
如果一个样本近似对数正态分布,那么以log−x为纵轴绘制其CDF,得到的图形会具备正态分布的特征。要测试样本与对数正态模型的拟合度,可以用样本中值的log值绘制一个正态概率图。
我们看看成年人的体重分布,这个分布大致符合对数正态分布。下图左展示了使用线性刻度的成年人体重的分布和正态模型,下图右使用对数刻度展示了同样的分布和对数正态模型。对数正态模型更符合成年人体重分布,但是我们看到两种模型在拟合度上的差别并不明显。
图6 使用线性刻度(左)和对数刻度(右)成年人体重的CDF
下图展示了成年人体重w及其对数log10w的正态概率图。在均值的几个标准差范围内,对数正态分布与数据吻合较好,但是在尾部也出现了偏离。
图7 使用线性刻度(左)和对数刻度(右)的成年人体重正态概率图
Pareto分布
Pareto分布是以经济学家Vilfredo Pareto的名字命名的。Pareto最初使用这个模型描述财富分布,之后人们用这个模型描述各种自然和社会科学现象。Pareto分布的CDF为:
参数xm和α决定了分布的位置和形状,xm是分布中可能出现最小值。下图展示了xm=0.5,具有不同α值的Pareto分布的CDF。
图8 具有不同参数的Pareto分布的CDF
对于符合Pareto分布的一个样本,如果使用线性刻度绘制其CCDF(CDF补函数),那么预期会看到的函数如下:
公式两边取对数,可以得到:
因此,如果以logx为横轴,logy为纵轴,那么得到的函数图形会近似一条直线,斜率为−α,截距为αlogxm。
下图展示了横轴和纵轴都使用对数刻度的人口CCDF。图中人口最小的1%城镇,即小于10−2的部分,基本是一条直线,即城镇人口分布的尾部符合Pareto模型。
图9 横轴和纵轴都使用对数刻度的城镇人口的CCDF
分析模型是一种数据压缩形式。如果模型很好地拟合了一个数据集,那么我们只需几个参数便可对大量的数据进行概括。但所有的模型都是不完美的。如果模型描述了真实世界的相关特征,省略了不必要的细节,那么模型是有用的。
参考文献:
统计思维. Allen B.Downey. 金迎 译