白话解释正态分布
复习一个统计学方面的课题,想找些资料看看,结果发现,就算是最基本的一些统计学概念,能找到的中文资料,读起来都是这么的佶屈聱牙,似乎都是从教科书里拷贝几个名词解释给放到一起,就算是一篇文章了。
所以我想试试做一个费力但是未必讨好的事,用大白话拆解统计学里面的一些基本概念。
我熟悉医药,就选了个跟医药有关的话题,就是怎么用统计学来判断一种药是不是有疗效。
比如有个新药,卖的人声称吃了它之后让人跑步速度加快。
在统计学上,这叫做一个“假说”。就是说,这人有一个说法,他说他的药物有效,能让人跑得快。但是在没有经过验证之前,我们就没有理由认为这是真的。所以这只能叫做“假说”。
那么我们应该怎么去检验一个假说是不是真的能成立呢?
为了检验,我们可以给10个人吃这种药,然后让他们跑100米,测一下他们的速度。
我们假设测得的结果是:这10个人,跑100米平均需要12秒。
(注意:本文的所有数字都是即兴假设的,就是为了帮助说明问题。请勿就具体数字打假。)
这算是快呢还是算慢呢?
我们需要跟“正常情况”做对比。
就这个课题来说,正常情况就是全体人类的平均跑步速度。
那我们就去查资料,一查之下发现,大众跑100米的平均速度是13秒。
大众跑100米需要13秒,而这10个人吃了这种新药之后,跑100米只需要12秒,少用1秒钟时间就能跑完100米,似乎速度确实是快了,那么这个新药好像真的是有效?
其实我们现在还不能下结论。
因为,我可以争辩说:人的跑步速度本来就不一样。有些人快,有些人慢。所以各次测量的数字是不可能完全一样的。你另外叫10个人来,不吃这种药,跑100米测速,结果可能是12秒,也可能是13秒,甚至可能是14秒,这都不一定的。
因为人类都有个体差异。张三和李四的跑步速度不一样,这个很正常。这种个体差异,就可以让你每次找10个不同的人来测量跑步速度的时候,得到的数字会不一样。这个就是个体差异导致的自然波动。
好,那么现在你怎么能证明吃药的这10个人,跑100米跑出来的这12秒的成绩,不是那种人体差异导致的“自然波动”,而是确实是因为吃了这个药,于是速度增加呢?
这就需要有统计学的判断方法来帮忙。
要做这种判断,需要知道两件事:
一,正常情况下,大家跑步的平均速度是多少。
二,正常情况下,不同的人跑步,个体差异有多大。
人群总体的平均跑步速度,我们可以把它叫做标准速度。而那种自然波动幅度,也就是不同的人跑步速度的个体差异,统计学上会用一个叫做“标准差”单位来衡量。不过统计学专家不用“自然波动”这个词。他们喜欢用的词是“分布状态”。
这个“分布状态”,还有个有意思的现象,就是:两头小,中间大。统计学家管这个叫做“正态分布”。
注意人家说的不是正太。是有人喜欢正太,这个统计学家也不否认。不但不否认,他还能告诉你人群里喜欢正太的占百分之几。问题不是这个。问题是人家说的“正态”跟帅哥没关系。人家说的是:凡事都有标准,可是凡是标准都有例外。不过,标准既然能叫标准,理由就是因为势力大。就是说,在一个群体里,合乎标准的会占多数(咱这儿不讨论山寨产品)。偏离标准的占少数。偏离标准越远,出现的数量就越少。这个叫做事物属性的正常分布状态,简称正态。
正态分布的数字,如果画图来表示,就会像一个寺庙里的吊钟,就是下面这个图的样子。
[转载]白话统计学:什么叫正态分布
这个图里,横轴上的刻度,从左边往右看,是从-4到0然后到+4.
这啥意思?
意思是说,咱以中点做标准。偏离中点的,我们就说是它跟标准“有差异”。-1是比标准小1,而+1当然就是说比标准大1.
那么-4当然就是说比标准小4了,以此类推。
我们刚才说的跑步速度的例子,也可以画成这样的一个图。图的中点是标准速度13秒的所在地(它跟标准速度13秒的“差距”是0,所以就标注作0了)。大多数人跑出来的都是这个平均速度,所以这个地方的曲线拱得最高,意思就是跑这个速度的人数最多。
然后有人跑得很快,比如能跑9秒,因为9秒比标准速度13“减少了”4秒,所以在这个曲线上,用的是-4来表示。-4那里还有个附加的数字:0.5%。这是什么意思?这是说,跑100米只用9秒的神人很少,在人群里大概只有0.5%。
因为能跑这么快的人很少,所以这里的曲线很低。
这是说跑得快的。另外有一些人跑得特别慢,100米要跑17秒。17秒比标准速度13秒“增加了”4秒,所以在这个图里,就用最右边的那个+4来表示。这里的曲线也是特别低,就是因为跑这么慢的人,数量也很少,大约只占人群的0.5%,所以这里也标注着一个附加数字:0.5%
知道这两个0.5%是什么意思,中间的那两个34%也就容易理解了。那意思就是说,跑100米需要的时间大约是12秒(13-1,所以刻度是-1)的人,占人群总数的34%。而需要时间是14秒(13+1,所以刻度是+1)的,也是占34%。
这两部分的人,一个是比标准速度快一秒,一个是比标准速度慢一秒。虽然一个是快了,一个是慢了,从体育角度看,或是从上公交车抢座的角度看,两者大不相同,但从统计学的角度看,两个都是一样的属性,就是:它们跟标准速度(13秒)的差距都是1秒。
用统计学的术语来说话,就是说这两部分的人,跟标准速度的差别都是一个标准差。
两部分人各占34%,合起来,这些人是占整个人群的68%
这就是图下方的那个68%表示的意思。用比较正经八本的话来表示,就是:跟标准值(13秒)的差距是一个标准差的人,占总人数的68%
如果把差距是两个标准差的人,就是速度比13秒多2秒和少2秒的都收罗进来,那当然包括的人数就更多了,这就会包括95%的人了
如果快3秒的和慢3秒的都收进来,就占到了整个人群的99%。
这个就是100米跑步速度的总体分布状态。而这个钟形曲线就叫“正态分布曲线”
根据这个数字分布状态,我们可以说,你如果跑步速度比平均值少一秒,那你还是在正态分布范围的68%范围里,就是说人体自然差异造成这种速度变化的可能性是68%。
如果你能快3秒,就是说你用少于10秒(就算9.9秒吧)跑100米,那么,按照这个分布状态,这种事,因为人体自然差异而造成的可能性就小很多了,只有1%。
知道了人群跑步速度的这种分布状态,我们现在可以回头再看看那10个人跑出的12秒,算不算药物有效的证明。
这10个人,吃了那种药,他们跑100米的速度是12秒,就是说快了一个标准差,按照跑步速度的正态分布曲线,一个标准差是说这种事情本来就有68%的可能性。就是说即使不吃药,随便抓10个人来跑,也会有大约68%的可能直接跑出12秒的成绩来。
但是如果这10个人跑出少于10秒的成绩,比如说跑了9.9秒,这就是快了不止3个标准差。3个标准差的含义是什么?就是说如果随便抓10个人,不吃药,直接跑,居然跑出9.9秒的成绩,这种事情,正常情况下(就是说,不吃药的情况下),发生几率只有1%。因为,上面说了,99%的人都是在加减3个标准范围之内,就是说都在10–17秒之间。而这10个人能跑9.9秒,这就超出了3个标准差的范围,就是说“咱跟你们那99%不一样”了
这两个例子,第一个,跑12秒的,因为自然波动的关系,它出现机率高达68%,第二个,跑9.9秒的,可能的出现率就只有1%
前一个例子是是一个验证失败的例子。因为,68%这个机率太高,偶然碰上天然快腿的可能性太大,所以那不足以证明这个药有效。
要到多少比率才算有效?
统计学经过大量调查测量,发现真有效和假有效的分界线是5%。就是说,根据你这个测试内容的数据分布状态,如果你的试验组出现的某种变化,“天然发生”的可能小于5%,就可以接受为有效的证明。用统计学的表达习惯说话,就是P<0.05.
如果天然发生的几率是1%,可以说是“很有效”的证明。如果有人能得出0.1%的几率,那就是可以拍着胸口大声说我拿人头担保有效!
所以,我们这个验证新药的例子里,给如果10个人吃了这种药,他们跑100米的速度是12秒,虽然是快了,但是这种事情不吃药自然发生的可能性高达68%,这样的速度改变就没有说服力,结论是药物无效。这10个人只是碰巧跑得比别人稍快而已。
如果他们吃了药,跑的平均速度是9.9秒,这就可以说有效,因为,如果不吃药,随便抓10个人,跑出这种成绩的可能是小于1%,这就基本可以排除巧合了。
这个就是用统计学原理来验证一个假说的方法。就是说,一个假说,要跟大样本测量得到的“正态分布曲线”做对比,来证明你的假说所描述的那些变化,在正常情况下自然发生的可能性小之又小,于是我们就可以有信心说这不是自然的波动,而确实是发生了一种新的变化。如果是关于药效的假说,我们就可以说这个药是真的有效了。
没有经过科学训练的人,容易犯的错误就是不知道如何排除那种自然波动导致的巧合,于是给几个人吃了一种草,发现他们跑步速度加快了一秒,就立刻把这作为定理给记载到典籍里。古代各民族的原始医学里,记载了几万种治疗药物的方子,其中绝大多数是没有作用的,原因之一就是因为古人不知道用这种系统的分析方法来排除事物属性的自然波动。
说明一下:为了方便描述,我这里举的例子,比如这个跑步速度的测定方法,是简化了的。真正做研究,实验的设计当然要比这复杂,比如应该有对照组,应该有条件控制来排除其他因素的干扰。但那个是别的话题了,此处从略。