书摘|什么是大数定律

       有时,比研究具体数值更好的方法是研究比率:死亡人口在总人口中的比率。比如,我们可以计算美国各州每年死于脑癌的人在该州人口中所占的比例,而无须逐州统计死于脑癌的人数等原始数据。按照这种方法,得出的排行榜完全不同。南达科他州很不幸地位列榜首,每10万人中每年死于脑癌的人数为5.7人,远远超出每年3.4人的全美脑癌死亡率。排在南达科他州之后的是内布拉斯加州、阿拉斯加州、特拉华州和缅因州。如果我们不希望患上脑癌,可能就要避开这些地方。那么,我们该搬到什么地方去呢?在这个名单的末尾,我们会发现怀俄明州,佛蒙特州、北达科他州、夏威夷州以及哥伦比亚地区。

        这个结果有点儿奇怪。南达科他州脑癌频发,为什么北达科他州却几乎没有人患上这种癌症呢?为什么住到佛蒙特州就安全,而住在缅因州就有危险呢?

        原因不是南达科他州一定会让居民患上脑癌,而北达科他州的居民则对癌症免疫。排在榜首的这五个州有共同的特点,而排在榜尾的那五个州也有相似之处,即这些地方人口稀少。在排在前面和末尾的这9个州(及一个特区)中,人口最多的是内布拉斯加州。在人口排名的竞争中,该州与西弗吉尼亚州是难兄难弟,双方为第37名的位置争得热火朝天。这个分析结果似乎表明,住在人口较少的州,患脑癌的概率有可能高得多,也有可能低得多。

        很显然,这个结论没有任何道理,因此,我们最好换一种解释方法。

        为了更好地理解这种情况,我们先做一个虚拟游戏,游戏的名字叫做“谁最善于抛硬币”。玩法很简单,将一把硬币抛出去,正面朝上的硬币数量最多的一方获胜。我们给这个游戏增加一点儿趣味性,让大家手里握的硬币数量不同。有些人(“小数”组)只有10枚硬币,有些人(“大数”组)则有100枚硬币。

        如果以正面朝上硬币的绝对数量来计分,我们几乎可以肯定获胜方是“大数”组的成员。“大数”组成员大多约有50枚硬币朝上,这个数字是“小数”组无法企及的。即使“小数”组有100名成员,他们当中的最高得分也只能是9枚上下。

        显然,这样的玩法并不公平,因为“大数”组拥有难以逾越的先天优势。因此,我们可以改进这个游戏:在评分时,不以绝对数量为依据,而是根据比例来计分。这样的计分方法,对两个组来说应该是公平的。

        但是,这个计分方法仍然不公平。我前面说过,如果“小数”组有100名成员,很有可能至少一个人抛出8枚正面朝上的硬币,因此他的得分为80%。那么“大数”组的成员呢?他们都不会有80%的硬币是正面朝上的。当然,可能性是存在的,但却不会发生。事实上,从概率的角度看,“大数”组必须包含20亿名成员,出现过高或过低的结果才是合理的。这个结论符合我们对于概率的直觉认识,抛的硬币越多,越有可能出现一半正面朝上一半正面朝下的结果。

        读者朋友们可以自己尝试一番,我就动手做过这个实验。为了模拟“小数”组成员,我一次抛十枚硬币,连续抛很多次,硬币正面朝上的数量构成下面这个序列:

        4,4,5,6,5,4,3,3,4,5,5,9,3,5,7,4,5,7,7,9……

        然后我模拟“大数”组成员,一次抛出100枚硬币,多次抛投的结果为:

       46,54,48,45,45,52,49,47,58,40,57,46,46,51,52,51,50,60,43,45……

        每次抛1000枚硬币的结果是:

       486,501,489,472,537,474,508,510,478,508,493,511,489,510,530,490,503,462,500,494……

        算了,还是跟大家坦白吧。我并没有真的抛1000枚硬币,而是用计算机模拟得出的结果,谁有那么多的时间抛1000枚硬币呢?

        不过,还真的有人这样做了。1939年,南非数学家克里奇(J.E.Kerrich)因为冒失地跑到了欧洲,结果很快在丹麦被逮捕并被关进了*。如果一个普通人被关在*,不知道猴年马月才能重见天日,那么他可能会在牢房的墙壁上刻画记号记录天数,以此来帮助自己度过这段难熬的时光。不过,克里奇这位热衷于统计学研究的囚犯则不同,他总共将一枚硬币抛了一万次,还记录了正面朝上的数量,统计结果如下图所示:


书摘|什么是大数定律


        从中我们可以看出,随着硬币的数量越来越多,正面朝上的概率明显地向50%靠近,就好像被一把看不见的老虎钳钳住了一样。计算机模拟也会产生同样的结果。抛10枚硬币,正面朝上的比例范围为30%至90%;抛100枚,比例范围缩小,变为40%至60%;抛1000枚,比例范围仅为46.2%至53.7%。在某个规律的作用下这个比例越来越接近50%。这只不讲情面、无法抗拒的“手”就是“大数定律”。这里,我就不赘述这条定理了(尽管这条定理极具美感),但是我们可以这样理解:抛的硬币越多,正面朝上的比例为80%的概率就越小。事实上,如果抛的硬币足够多,结果为有51%的硬币正面朝上的概率也是微乎其微的!在抛10枚硬币的情况下,如果得到高度失衡的结果,并不值得我们关注。但是,如果抛100枚硬币,结果仍然失衡,那就让人吃惊了,我们甚至会怀疑:是不是有人在硬币上动了手脚?

        随着实验不断重复,实验结果往往会趋于稳定,并接近一个固定的平均值。事实上,自从运用数学方法研究概率以来,我们经常会得出这样的结论。16世纪的吉罗卡莫.卡尔达诺(Girolamo Cardano)就用不是十分正式的方式提出了这个原则,但是,直到19世纪初,西莫恩.德尼.泊松(Simeon-Denis Poisson)才赋予它一个简明扼要的名字:大数定律。


  摘自 乔丹.艾伦伯格 《魔鬼数学》