数据分析之数学基础篇(二)——统计知识总结

1.大数定理与中心极限定理
大数定理:随着样本的增加,样本的平均数将接近于总体的平均数,故推断中,一般会使用样本平均数估计总体平均数。
大数定律讲的是样本均值收敛到总体均值
中心极限定理:独立同分布的事件,具有相同的期望和方差,则事件服从中心极限定理。他表示了对于抽取样本,n足够大的时候,样本分布符合x~N(μ,σ^2)
中心极限定理告诉我们,当样本量足够大时,样本均值的分布慢慢变成正态分布

2.抽样
简单随机抽样
分层抽样:先依据特征将总体划分为多个部分,然后在各个子部分进行抽样
等距抽样:先将总体按照某一标准排列,然后按照固定的间隔进行抽取
整群抽样:先将总体(学生)按单位划分为多个群(班级),然后在各个群众进行抽取
多阶段抽样:先按总体的层次关系进行划分,再随机抽取高层次的群,然后依次按层次抽取

3.抽样分布
卡方分布:若n个相互独立的随机变量ξ₁,ξ₂,…,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。期望E(χ2)=n,方差D(χ2)=2n
t分布:假设X服从标准正态分布N(0,1),Y服从自由度为n的卡方分布,Z=X/sqrt(Y/n)
的分布称为自由度为n的t分布,t分布是正态分布的小样本形态。期望 E(T)=0,方差 D(T)=n/(n-2),n>2
F分布:设X1服从自由度为m的χ2分布,X2服从自由度为n的χ2分布,且X1、X2相互独立,则称变量F=(X1/m)/(X2/n)所服从的分布为F分布。期望E(F)=n/(n-2),方差D(F)=[2n^2(m+n-2)] / [m(n-2)^2(n-4)] (n>4)

4.参数估计
参数估计就是用样本统计量去估计总体的参数
点估计:样本统计量的某个取值直接作为总体参数的估计值
区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到
置信区间:由样本统计量所构造的总体参数的估计区间
置信水平:构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例

5.假设检验
H0 : μ = μ0 或 H0 : μ - μ0 = 0
数据分析之数学基础篇(二)——统计知识总结数据分析之数学基础篇(二)——统计知识总结