用样本推断整体,中心极限定理及其一些前提条件

​写的时候也从互联网找了一些资料,参考链接放在文章中间了。
一些稀碎的东西:
卡方分布的n是用来查表的关键要素。
variance:方差
standard deviation:标准差

本文其实重点是用样本推断整体这部分内容的一个简单引子,对用样本推断整体做了一些知识的铺垫和通俗化的解释。对Chapter 2 Extra Slides PPT中的内容做了一部分补充,比如:
中心极限定理的通俗解释
大多数情况下,总体为什么可以假设服从正态分布的原因或猜想

后面还有随笔2/3/…,以便把这部分内容做一个系统的梳理和注解。内容将会包括,假设检验,用t分布预测事件发生的概率等。

正文:
用样本推断整体,中心极限定理及其一些前提条件
用样本推断整体,中心极限定理及其一些前提条件

由于这些变量都是独立同分布的,所以Xi的方差就和X的方差一样,平均值就和X的平均值一样,所以直接就可以写出来带有mu和theta的结果。样本平均值求出来和整体平均值一致,所以就说它没有系统误差,就是无偏估计(unbiased estimation);方差算出来和系统方差是有一个除以n的系统误差,所以就是有偏估计。
然而,抽样终究是抽样,并不能真正代表整体,计算出的特征值(方差和平均值)还是随机的,每抽一次样加入上一次的样本,所计算出的特征值可能和上次算出来的都不一样,不过随着抽样次数的增加,肯定是越来越逼近真实的总体的特征值。这也就是魏老师常说的,样本不够,论文不行。
样本不够,有些计量中的公式或者说方法就不太适用,在这种情况下如果强行使用公式,算出来的东西就是有问题的。本来公式就是用来估计的,用了更少的样本,从理论上说,估计的结果当然更加有失偏颇了。
在样本能够采集的比较多的时候,我们就可以利用一些方法去利用样本特征去估计总体特征,这个方法也就是中心极限定理——

中心极限定理的通俗意思就是,通过增加采样,求出样本的特征值(这里以均值为例),然后这个特征值实际上是满足正态分布的(并不一定是标准正态分布,曲线肯定是以“横坐标=真实均值”所代表的线为左右轴对称的),通过画很多点在坐标轴中,就可以得到下面的曲线,可以看到均值的分布是接近正态分布的。然后我们就以正中间的那个数作为是整体的均值即可。
用样本推断整体,中心极限定理及其一些前提条件

图片来源:https://www.jianshu.com/p/7e0597c0200a(这个大神在这个链接里有他的公众号的地址,可以去关注看看,我没看)
中心极限定理的比较严格的定义是:
中心极限定理是指,给定足够大的样本量,无论变量在总体中的分布如何,变量均值的抽样分布都将近似于正态分布。详细来讲,给定一个任意分布的总体,从这个总体中抽取n个样本,总共随机抽取m次,计算这m次的样本的平均值,则这些平均值的分布是正态分布,并且这些平均值的均值近似等于总体均值,平均值的方差为总体方差除以n。
在这里,要把握以下关键点:
第一,总体的分布是任意的,可以是卡方分布,可以是指数分布,可以是均匀分布,可以是……
第二,从总体中要抽n个样本,总共要抽m次,这里的m和n都要求越大越好,其中m是至少要比30大。
第三,这m次样本的平均值的分布是正态分布,这种分布叫做抽样分布。
第四,这些样本平均值的均值是近似为总体均值,也就是说,求两次均值。
(上面这个定义和关键点参考了:http://baijiahao.baidu.com/s?id=1669816513139069166&wfr=spider&for=pc)
可以看一个小例子(参考:https://www.jianshu.com/p/7e0597c0200a)
拿一个骰子????扔,扔很多次,可以看到1,2,3,4,5,6的出现的次数如下所示:
用样本推断整体,中心极限定理及其一些前提条件

比如一共扔了10000次或者更多,总之是多到了不想挨个去相加求平均。现在我们有一个数据集,这个数据集有10000个数字,然后我们从中去采样,每次采样50次并记录数组,一共采集1000次,也就是一共有1000个数组,每个数组就可以形成一个平均值,然后我们画出平均值的分布图,如下所示:
用样本推断整体,中心极限定理及其一些前提条件

就可以很直观看到,其1000个样本均值的分布是接近正态分布的。
这1000个数,已经比较少了,就可以去计算均值和方差了。
说白了,中心极限定理就是变着法子偷懒。

到了这里突然发现我上次有道题算错了。
用样本推断整体,中心极限定理及其一些前提条件

题目里X的均值的数量是50(大于30),问x的均值大于等于52的概率。可以认为X的均值是服从正态分布的,可以先转化为标准正态分布。具体计算过程如下,上次忘了做积分。最后的结果应该是22.06%.
用样本推断整体,中心极限定理及其一些前提条件

我感觉这题出的比较无厘头,实际做研究的时候应该不会出现这样的问题,整体的方差和均值都已经知道了,求x的均值的分布貌似没有必要(一家之言)。
实际中更多的情况是,均值也不知道,方差也不知道,就是总体摆在面前,自己去动手采样,自己做个数据集,然后去求总体的方差和均值,然后归纳出一些规律,解释一些现象,甚至推演一些新东西,这个研究就算做完了。
所以,很多情况下,肯定要考察我们去运用中心极限定理的能力。
这时候就要用到t分布。
使用t分布的前提是整体要服从正态分布。可以先假设,然后再去做假设检验。
用样本推断整体,中心极限定理及其一些前提条件

其中n实际上是X的均值的样本数-1,因为自由度少了一个(使用了X的均值)。
当然,我们做研究中,实际上总体也是有限的,所以肯定不是理想的正态分布,自然界中可能也不存在理想的正态分布。但是在很多情况下,我们可以认为某个很大的总体是服从正态分布的。在数学上我们也有一些方法,可以通过正态性检验方法去检验。正态性检验方法有峰度检验、偏度检验等(具体的检验方法可以参考:https://baike.baidu.com/item/正态性检验/2660263?fr=aladdin)
笼统一点说,还是看从总体采集的样本X1,X2,X3…,Xn的大致分布,是不是长得像正态分布的图像,这里的“像不像”,就是说你的样本画出来的图的峰度、偏度等和正态分布有多接近,是不是可以接近到接受这个假设。这里不展开说如何去检验,这个应该有很多现成的软件可以去做,大概理解原理即可。

从另一个角度,正态分布实际上是自然界倾向于产生最大无序程度的一种表现。在给定均值和方差的分布中,正态分布是让熵最大的分(https://www.zhihu.com/question/19910173)。
用样本推断整体,中心极限定理及其一些前提条件
上图 证明过程
这个也很好理解,举一个简单的例子,就是高尔顿钉板实验,这个就很直观地看到,球掉下之后会尽可能的散开,系统的无序程度尽可能达到最大。
用样本推断整体,中心极限定理及其一些前提条件

图 高尔顿钉板实验
所以,我们在很多情况下,可以认为一件自然发生的事情的结果作为一个随机变量的分布,就是近似的正态分布。