统计思维（实例3）——分布建模

前面我们使用的分布都是基于有限样本的经验观察，因此称为经验分布（empirical distribution）。在经验分布之外还有分析分布（analytic distribution），分析分布的CDF（累积分布函数）是一个数学函数，分析分布可以用作经验分布的建模。

指数分布

指数分布的CDF为：

CDF(x) = 1 - e^{-\lambda x}CDF(x)=1−e−λx

参数\lambdaλ决定了分布的形状。下图展示了当\lambdaλ=0.5、1和2时CDF的形状。统计思维（实例3）——分布建模

统计思维（实例3）——分布建模
图1 不同参数的指数分布的CDF

现实世界中，如果我们观察一系列事件，对事件发生的时间间隔，即到达间隔（interarrival time）进行测量，可能会得到指数分布。

举例说明，我们看看婴儿出生的到达时间间隔。1997年12月18日，澳大利亚布里斯班的一家医院有44个婴儿出生，当地报纸报道了这些婴儿的出生时间。下图展示出生间隔的CDF。

统计思维（实例3）——分布建模
图2 出生间隔CDF

如果认为一个数据集是指数分布，那么绘制其CDF补函数时，预期看到的函数将是：

y \approx e^{-\lambda x}y≈e−λx

两边取对数，得到：

logy \approx -\lambda xlogy≈−λx

下图展示婴儿出生间隔的CDF补函数：统计思维（实例3）——分布建模

统计思维（实例3）——分布建模
图3 出生间隔以log-y为纵轴的CDF

上图中的线不是很直，说明指数分布并不是这组数据的完美模型。参数\lambdaλ可以解释为一个比率，即事件在一个时间单元内发生的平均次数。

正态分布

正态分布（normal distribution)也称为高斯分布，它由两个参数决定：均值μ和标准差σ，μ=0且σ=1的正态分布称为标准正态分布。下图展示不同参数的正态分布的CDF，这些曲线表现出的S形就是正态分布的显著特征。统计思维（实例3）——分布建模

统计思维（实例3）——分布建模
图4 一组具有不同参数的正态分布的CDF

前文，我们研究了全国家庭增长调查中新生儿体重的分布，下图展示了所有成功生产的新生儿体重的经验CDF，以及具有相同均值和方差的正态分布的CDF。统计思维（实例3）——分布建模

统计思维（实例3）——分布建模
图5 使用正态模型的新生儿体重CDF

使用正态分布作为这个数据集的模型非常合适，在低于第10百分位数的部分，数据和模型之间存在差距。相比正态分布中的期望值，实际数据中体重较轻的新生儿更多。

对于指数分布和其他分析分布，可以通过简单转换来验证一个分析分布模型是否适用于一个数据集。对于正态分布则不存在这样的转换，可以使用另外一种方法：正态概率图。

生成正态概率图的简单方法如下：

(1) 将样本中的值排序； (2) 从一个标准正态分布（μ=0, σ=1），生成一个随机样本并排序，样本大小与需要建模的样本一样； (3) 绘制样本的排序值和随机值。

如果样本的分布接近正态分布，那么绘制结果将为一条直线，截距为mu，斜率为sigma。

对数正态分布

如果一组值的对数符合正态分布，那么这组值就符合对数正态分布（lognormal distribution）。对数正态分布的CDF和正态分布的CDF一样，只不过将公式中的xx替换为logxlogx。对数正态分布的参数通常写为\muμ和\sigmaσ，但这两个参数并不是均值和标准差。对数正态分布的均值为exp(\mu+\sigma^2/2)exp(μ+σ2/2)，标准差的公式比较复杂。

如果一个样本近似对数正态分布，那么以log-xlog−x为纵轴绘制其CDF，得到的图形会具备正态分布的特征。要测试样本与对数正态模型的拟合度，可以用样本中值的log值绘制一个正态概率图。

我们看看成年人的体重分布，这个分布大致符合对数正态分布。下图左展示了使用线性刻度的成年人体重的分布和正态模型，下图右使用对数刻度展示了同样的分布和对数正态模型。对数正态模型更符合成年人体重分布，但是我们看到两种模型在拟合度上的差别并不明显。

统计思维（实例3）——分布建模
图6 使用线性刻度（左）和对数刻度（右）成年人体重的CDF

下图展示了成年人体重w及其对数log_{10}wlog10w的正态概率图。在均值的几个标准差范围内，对数正态分布与数据吻合较好，但是在尾部也出现了偏离。

统计思维（实例3）——分布建模
图7 使用线性刻度（左）和对数刻度（右）的成年人体重正态概率图

Pareto分布

Pareto分布是以经济学家Vilfredo Pareto的名字命名的。Pareto最初使用这个模型描述财富分布，之后人们用这个模型描述各种自然和社会科学现象。Pareto分布的CDF为：

CDF(x)=1 - \left(\frac{x}{x_m}\right)^{-\alpha}CDF(x)=1−(xmx)−α

参数x_mxm和\alphaα决定了分布的位置和形状，x_mxm是分布中可能出现最小值。下图展示了x_m=0.5xm=0.5，具有不同\alphaα值的Pareto分布的CDF。

统计思维（实例3）——分布建模
图8 具有不同参数的Pareto分布的CDF

对于符合Pareto分布的一个样本，如果使用线性刻度绘制其CCDF（CDF补函数），那么预期会看到的函数如下：

y \approx \left(\frac{x}{x_m}\right)^{-\alpha}y≈(xmx)−α

公式两边取对数，可以得到：

logy \approx -\alpha(logx-logx_m)logy≈−α(logx−logxm)

因此，如果以logx为横轴，logy为纵轴，那么得到的函数图形会近似一条直线，斜率为-\alpha−α，截距为\alpha logx_mαlogxm。

下图展示了横轴和纵轴都使用对数刻度的人口CCDF。图中人口最小的1%城镇，即小于10^{-2}10−2的部分，基本是一条直线，即城镇人口分布的尾部符合Pareto模型。

统计思维（实例3）——分布建模
图9 横轴和纵轴都使用对数刻度的城镇人口的CCDF

分析模型是一种数据压缩形式。如果模型很好地拟合了一个数据集，那么我们只需几个参数便可对大量的数据进行概括。但所有的模型都是不完美的。如果模型描述了真实世界的相关特征，省略了不必要的细节，那么模型是有用的。

参考文献：

统计思维. Allen B.Downey. 金迎译

统计思维（实例3）——分布建模

指数分布

正态分布

对数正态分布

Pareto分布

相关推荐