4-3 描述统计学:总体、样本和误差,基本统计量(版本:py3)
相关概念
1.采样相关概念
- 总体:研究对象的全体
- 样本:从总体中的随机抽样
- 采样偏差:是由于抽样过程中没有达到足够随机而产生
抽样的方式会严重影响样本的随机性,从而影响对总体的预测,抽样的方法有多种,可以使用一定的方法来减小采样误差,然而采样误差是无法避免的。
2.误差:不确定性的某种表示
-
标准差:使用标准差画error bar;用于表征数据分散程度
-
总体标准差:
-
样本标准差:
-
- Bootstrap置信区间:用总体统计量的估计区间画error bar;用于表征数据的波动范围
- 可重复采样:抽取的个体仍可参加下次采样,常用于估计总体统计量的置信区间
- 如何使用Bootstrap计算置信区间(Quantile算法):用重采样的采样方法,计算统计量并排序,取相应的分位数,作为置信区间的边界
推荐阅读:如果你有兴趣,可以阅读《An Introduction to the Bootstrap》这本书了解更多关于Bootstrap的知识和其他计算置信区间的方法
- seaborn画图参数区别:1)使用标准差绘制error bar:ci=’sd’ 2)使用Bootstrap置信区间画error bar:ci & n_boot
Error Bar
黑线即为Error Bar,在每一列上的Error Bar 表征:在给定的置信区间下,统计量的范围会在黑线内波动。
补充知识
1.采样方法
抽样的目的是用样本推测总体的情况,这也是推断统计需要的内容,采样偏差的存在及大小会影响对总体参数的估计,因此对于采样方法的选择就尤为重要了
请阅读:
- 随机抽样方法整理,了解不同的采样方法,掌握基于分布、基于累计概率分布函数、基于不独立样本的采样方法
- 随机采样方法整理与讲解(MCMC、Gibbs Sampling等),链接中介绍了8种随机采样的方法,学有余力的话,可以对背后的数学原理进行一定的了解
2.置信区间的定义:
在统计学中,置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,置信区间是一个非常重要的概念。
请阅读以下材料,了解置信区间的基本概念和置信区间的一个小应用
- 置信区间 wikipedia词条
- 【A/B测试算法大揭秘】第四篇:置信区间究竟是怎么来的?,置信区间还可以用于A/B test领域
3.无偏估计
本节视频列出的总体方差的估计公式是无偏,那么为什么要使用无偏估计,无偏估计又有什么好处呢?请阅读以下链接,了解无偏估计是什么
- 无偏估计 百度词条
- 为什么分母从n变成n-1之后,就从【有偏估计】变成了【无偏估计】?,理解为什么当分母为(n-1)时是无偏估计以及无偏估计的本质是没有系统误差
统计学的知识是数据分析的基础,了解了概率统计的概念之后,你可以更好的理解这些统计量是怎么得来的,以及是怎样反映总体特征的
扩展阅读
Bootstrap方法
Bootstrap是一种对参数的推断方法,使用的是重复抽样的方法,对多次抽样得到的样本进行分析,在掌握了Python的基础知识之后,可以自己编写代码实现,请参考:
抽样的应用
如果你对抽样的实际应用还有些模糊,阅读以下链接,感受抽样的魅力