统计学基础(二)
参考资料:
可汗学院公开课:统计学
Table of Contents
1. 中心极限定理(重要)
定义:设从均值为、方差为的任意一个总体中,抽取样本量为n的样本,当n充分大,样本均值的抽样分布近似服从均值为、方差为的正态分布
一些概念:样本均值的抽样分布、正态分布的偏度、左偏(负偏)、右偏(正偏)、正峰态(比正态分布尖)、负峰态(中间平滑)、
样本容量n越大:
- 结果将更好地接近正态分布,
- 标准差更小
样本均值抽样分布的标准差通常被称作均值标准差,也被称作均值标准误差
举例:
男性户外活动一天平均喝水2L,标准差为0.7L,如果为50个男性的户外活动准备110L的水,不够喝的概率是多少?(通过总体数据去估计样本数据)
思路:
- 先计算给每个人平均准备多少升,转化为每个人平均用水量超过2.2L的概率
- 抽取n=50的样本
- 求出高于2.2L的概率(相差几个标准差(z),查表)
2. 置信区间
定义:由样本统计量所构造的总体参数的估计区间
举例:
3. 伯努利分布
定义:伯努利分布是一个离散概率分布,伯努利试验失败,随机变量为0,成功则为1。
其成功几率为p,失败概率为1-p,均值为p,方差为p(1-p)
4. 误差范围
定义:表达了统计结果中随机波动的大小
举例:假设国家1亿人,即将举行总统选举,候选人两位,分别为A和B,假设每个人都参加投票,要么A,要么B,
5. t分布
当样本容量很小时,样本均值抽样分布不应该采用正态分布,而应该采用t分布。t分布用于对呈正态分布的总体的均值进行估计,在样本容量小时非常有用。
小样本计算置信区间的步骤:
求样本的平均值和标准误差
查找t表格,求t的值
a = 样本平均值 - t * 标准误差
b = 样本平均值 + t * 标准误差