统计学基础(二)

参考资料:

可汗学院公开课:统计学

Table of Contents

1. 中心极限定理(重要)

2. 置信区间

3. 伯努利分布

4. 误差范围

5. t分布


1. 中心极限定理(重要)

定义:设从均值为统计学基础(二)、方差为统计学基础(二)的任意一个总体中,抽取样本量为n的样本,当n充分大,样本均值的抽样分布近似服从均值为统计学基础(二)、方差为统计学基础(二)的正态分布

一些概念:样本均值的抽样分布、正态分布的偏度、左偏(负偏)、右偏(正偏)、正峰态(比正态分布尖)、负峰态(中间平滑)、

样本容量n越大:

  • 结果将更好地接近正态分布,
  • 标准差更小

样本均值抽样分布的标准差通常被称作均值标准差,也被称作均值标准误差

统计学基础(二)

举例:

男性户外活动一天平均喝水2L,标准差为0.7L,如果为50个男性的户外活动准备110L的水,不够喝的概率是多少?(通过总体数据去估计样本数据)

思路:

  • 先计算给每个人平均准备多少升,转化为每个人平均用水量超过2.2L的概率
  • 抽取n=50的样本

统计学基础(二)

  • 求出高于2.2L的概率(相差几个标准差(z),查表)

 

2. 置信区间

定义:由样本统计量所构造的总体参数的估计区间

举例:

统计学基础(二)

 

3. 伯努利分布

定义:伯努利分布是一个离散概率分布,伯努利试验失败,随机变量为0,成功则为1。

其成功几率为p,失败概率为1-p,均值为p,方差为p(1-p)

 

4. 误差范围

定义:表达了统计结果中随机波动的大小

举例:假设国家1亿人,即将举行总统选举,候选人两位,分别为A和B,假设每个人都参加投票,要么A,要么B,

统计学基础(二)

 

5. t分布

当样本容量很小时,样本均值抽样分布不应该采用正态分布,而应该采用t分布。t分布用于对呈正态分布的总体的均值进行估计,在样本容量小时非常有用。

小样本计算置信区间的步骤:

求样本的平均值和标准误差

查找t表格,求t的值

a = 样本平均值 - t * 标准误差

b = 样本平均值 + t * 标准误差