4-3 描述统计学:总体、样本和误差,基本统计量(版本:py3)

相关概念

1.采样相关概念

  • 总体:研究对象的全体
  • 样本:从总体中的随机抽样
  • 采样偏差:是由于抽样过程中没有达到足够随机而产生 
    抽样的方式会严重影响样本的随机性,从而影响对总体的预测,抽样的方法有多种,可以使用一定的方法来减小采样误差,然而采样误差是无法避免的。

2.误差:不确定性的某种表示

  • 标准差:使用标准差画error bar;用于表征数据分散程度

    • 总体标准差:4-3 描述统计学:总体、样本和误差,基本统计量(版本:py3)

    • 样本标准差:4-3 描述统计学:总体、样本和误差,基本统计量(版本:py3)

  • Bootstrap置信区间:用总体统计量的估计区间画error bar;用于表征数据的波动范围 
    • 可重复采样:抽取的个体仍可参加下次采样,常用于估计总体统计量的置信区间
    • 如何使用Bootstrap计算置信区间(Quantile算法):用重采样的采样方法,计算统计量并排序,取相应的分位数,作为置信区间的边界 
      推荐阅读:如果你有兴趣,可以阅读《An Introduction to the Bootstrap》这本书了解更多关于Bootstrap的知识和其他计算置信区间的方法
    • seaborn画图参数区别:1)使用标准差绘制error bar:ci=’sd’ 2)使用Bootstrap置信区间画error bar:ci & n_boot

Error Bar

4-3 描述统计学:总体、样本和误差,基本统计量(版本:py3)

黑线即为Error Bar,在每一列上的Error Bar 表征:在给定的置信区间下,统计量的范围会在黑线内波动。

补充知识

1.采样方法

抽样的目的是用样本推测总体的情况,这也是推断统计需要的内容,采样偏差的存在及大小会影响对总体参数的估计,因此对于采样方法的选择就尤为重要了 
请阅读:

2.置信区间的定义:

在统计学中,置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,置信区间是一个非常重要的概念。 
请阅读以下材料,了解置信区间的基本概念和置信区间的一个小应用

3.无偏估计

本节视频列出的总体方差的估计公式是无偏,那么为什么要使用无偏估计,无偏估计又有什么好处呢?请阅读以下链接,了解无偏估计是什么

统计学的知识是数据分析的基础,了解了概率统计的概念之后,你可以更好的理解这些统计量是怎么得来的,以及是怎样反映总体特征的

扩展阅读

Bootstrap方法

Bootstrap是一种对参数的推断方法,使用的是重复抽样的方法,对多次抽样得到的样本进行分析,在掌握了Python的基础知识之后,可以自己编写代码实现,请参考:

Bootstrap采样方法的python实现

抽样的应用

如果你对抽样的实际应用还有些模糊,阅读以下链接,感受抽样的魅力