统计学基础知识点刷题(task4)

参考视频:可汗学院《统计学》
参考书籍:《深入浅出统计学》

概念1:线性回归

1. 场景

坐标系中若干点,要找出一条直线y=mx+by=mx+b,使这些点到该直线上同一横坐标的点的距离平方和最小。需要求出斜率mm和截距bb

注意:这里不是最小化这些点到该直线的距离的平方和,而是到直线的竖直距离(在主成分分析法中,求取新的主成分时采用的是最大化方差,采用了点到直线投影的可视化方式,与这里有些相似,注意不要混淆)。如下图:
统计学基础知识点刷题(task4)

2. 求直线的斜率和截距

主要通过最小化下图所示公式来求解,下面的方法就是有名的最小二乘回归
统计学基础知识点刷题(task4)SEline=i=1n(yi(mxi+b))2=i=1nyi22i=1nyi(mxi+b)+i=1n(m2xi2+2mbxi+b2)=i=1nyi22mi=1nxiyi2bi=1nyi+m2i=1nxi2+2mbi=1nxi+nb2=ny22mnxy2bny+m2nx2+2mbnx+nb2 \begin {aligned} SE_{line}&=\sum_{i=1}^n{(y_i-(mx_i+b))^2} \\ &=\sum_{i=1}^n{y_i}^2-2{\sum_{i=1}^n{y_i*(mx_i+b)}}\\ &+\sum_{i=1}^n{(m^2x_i^2+2mbx_i+b^2)}\\ &=\sum_{i=1}^n{y_i}^2-2m\sum_{i=1}^n{x_iy_i}\\ &-2b\sum_{i=1}^n{y_i}+m^2\sum_{i=1}^n{x_i^2}\\ &+2mb\sum_{i=1}^n{x_i}+nb^2\\ &=n\overline{y^2}-2mn\overline{xy}-2bn\overline{y}\\ &+m^2n\overline{x^2}+2mbn\overline{x}+nb^2 \end{aligned}
上式可以表述为一个三维曲面,求使得SElineSE_{line}最小化的m、b值,只需要求偏导均为0的点即可。三维曲面如图:
统计学基础知识点刷题(task4){SElinem=2nxy+2mnx2+2bnx=0SElineb=2ny+2mnx+2nb=0 \begin{cases} \frac{\partial_{SE_{line}}}{\partial_m}=-2n\overline{xy}+2mn\overline{x^2}+2bn\overline{x}=0\\ \frac{\partial_{SE_{line}}}{\partial_b}=-2n\overline{y}+2mn\overline{x}+2nb=0 \end{cases}
化简可得:{x2m+xb=xyxm+b=y \begin{cases} \overline{x^2}*m+\overline{x}*b=\overline{xy}\\ \overline{x}*m+b=\overline{y} \end{cases}
设系数行列式为M=x2xx1M= \begin{vmatrix} \overline{x^2} & \overline{x}\\ \overline{x} & 1 \end{vmatrix} {m=xyxy1Mb=x2xyxyM()\begin{cases}m=\frac{ \begin{vmatrix}\overline{xy} & \overline{x}\\ \overline{y} & 1\end{vmatrix}}{M}\\ b=\frac{ \begin{vmatrix}\overline{x^2} & \overline{xy}\\ \overline{x} & \overline{y}\end{vmatrix}}{M}(*) \end{cases}

注意:这里求出斜率m后直接代入原方程组中第二个等式即可得出b=ymxb=\overline{y}-m*\overline{x}。当然,(*)形式的结果与该结果都是一样的。

3. 拟合优度检验

拟合优度检验是为了检验回归直线对所有样本数据的拟合程度的,常用的有两个指标:决定系数R2(有的资料称为判定系数)以及样本相关系数。
(1)三类误差
首先,在理解上述指标之前,先要了解三类误差的含义及其计算公式,分别是SST(总的误差平方和),SSR(回归误差平方和),SSE(残差平方和)。计算公式如下:SST=(yiy)2   (y 的总波动)SSR=(yi^y)2SSE=(yiyi^)2 SST=\sum(y_i-\overline{y})^2\ \ \ (\text{y 的总波动})\\ SSR=\sum(\hat{y_i}-\overline{y})^2 \\ SSE=\sum(y_i-\hat{y_i})^2 三类误差关系如下:SST=SSR+SSESST=SSR+SSE

从含义上解释:SSRSSR表示样本数据中能被回归模型解释的成分,而SSESSE表示样本数据中无法被回归模型解释的部分。

(2)判定系数R2
很显然,yy\frac{y的波动被回归模型描述的部分}{y的总波动}公式即可反映该模型的拟合优度。公式如下:r2=SSRSST=1SSESSTr^2=\frac{SSR}{SST}=1-\frac{SSE}{SST}SSESSE越小,则r2r^2越大,拟合越佳。
(3)样本相关系数
ρ=(m)r2\rho=(m的符号)\sqrt{r^2}m为回归直线的斜率。
具体请参考《商务与经济统计》第13版

注意:r2r^2的取值范围为[0,1][0,1],而ρ\rho的取值范围是[1,1][-1,1]

4. 显著性检验

(1)除了进行拟合优度检验之外,还需要判断回归系数是否显著性地0\neq0因为当回归系数不等于0时,说明解释变量和被解释变量之间具有显著的线性关系(可能还有其他关系)。

关于回归分析的容易陷入误区
回归分析只能表示变量之间有无相关性,并不一定具有因果关系。是否具有因果关系,还需要分析统计人员根据具体场景进行确定。

(2)检验所需的统计量及其服从的分布
t=bβst=\frac{b-\beta}{s}其中b是根据样本求出的回归方程系数(属于样本统计量),β\betay=β0+β1x+ϵy=\beta_0+\beta_1x+\epsilon中总体系数。
显著性假设就是根据样本所得的b,sb,s来检验β0\beta\neq0是否显著。

(具体分析过程请参考《商务与经济统计第13版》)

注意:
1.在求统计量中ss的过程中,需要用的协方差和方差的概念,具体公式推导如下(这一点在《商务与经济统计》中没有说明):COV(X,Y)=E[(XE(X))(YE(Y))]=E[XYXE(Y)YE(X)+E(X)E(Y)]=E(XY)2E(X)E(Y)+E(X)E(Y)=E(XY)E(X)E(Y)\begin{aligned}COV(X,Y)&=E[(X-E(X))(Y-E(Y))] \\ &=E[XY-XE(Y)-YE(X)+E(X)E(Y)]\\ &=E(XY)-2E(X)E(Y)+E(X)E(Y) \\ &=E(XY)-E(X)E(Y)\end{aligned}
COV(X,X)=E(X2)(E(X))2COV(X,X)=E(X^2)-(E(X))^2上述公式与回归直线的斜率计算公式形式相近,能与证明回归系数分布时联系上(很重要)。统计学基础知识点刷题(task4)
2.在得出显著性检验时所需要的t-分布的过程中,关于误差项ϵ\epsilon的多项假设必不可少。(具体参见《商务与经济统计》第13版)

5. 残差分析

(1)证实模型假定
回归分析中对残差的基本假设是服从正态分布,如果这一点不满足,回归模型的立足点就出现问题。有如下两个图形化检验的方法:

  • 残差图
  • 正态概率图(需用到标准化残差)

以上两种方法,具体参见《商务与经济统计》第13版14.8节
注意
1.在参考视频中许多概念与本笔记概念有差别,个人觉得《商务经济与统计》一书中总结得很系统便采用其中的说法。之前在3.拟合优度检验中介绍了三类误差,视频:组内平方和和组间平方和分析的角度与该书有些许不同,但最终也得出了“总的波动=组内波动+组间波动”的关系形式,需要从波动的描述角度来考虑,其实二者结果是一样的。
2.方差分析残差分析概念并不等同,目的也不相同,千万不要混淆。方差分析又称为ANOVA方差有三个来源,分别是回归、残差(误差)以及总和,对应于SSR、SSE、SST;而残差yiyi^y_i-\hat{y_i}。前者的目的是弄清回归模型对于因变量的描述程度,即衡量模型的拟合程度;而后者的目的是为了检验模型关于误差项ϵ\epsilon的正态性假设是否合理。

(2)检测异常值或有影响的观测值
异常值和有影响的观测值(如高杠杆率点)往往能对回归模型产生决定性的影响,在构建回归模型之前检测出这些点将会使你更好的构建模型。

总的来说,回归分析是一个比较系统全面的领域,以上还只是总结了简单回归分析,余下的还有多元回归分析、逻辑回归等等一系列模型。学习时要注意理清如下几点:
1.回归分析包含哪些步骤
2.每个步骤的目的是什么
3.每个步骤包含哪些方法,具体怎么做
4.学会应用之后再深入地理解回归分析每一步骤的原理

概念2:χ2\chi^2-分布

1. 概念

N个相互独立的、服从标准正态分布的随机变量的平方和服从自由度为N的χ2\chi^2-分布。

X1,X2XnnXiN(0,1)i=1nXi2χn2假设X_1,X_2\ldots{X_n}是n个相互独立的随机变量且 X_i\sim{N(0,1)},则\sum_{i=1}^n{X_i^2}\sim\chi_n^2

2. 分布曲线与自由度的关系

统计学基础知识点刷题(task4)

3. 两种χ2\chi^2检验

(1)皮尔逊χ2\chi^2检验
统计学基础知识点刷题(task4)上图中的案例请见参考视频,要注意的是此案例中χ2\chi^2统计量的构造是:

χ2=(yiyj)2n1\chi^2=\frac{\sum{(y_{i}-y_{j})^2}}{n-1},其中yiy_i是观测值,yjy_j是原始值。注意这里自由度为(n1=5)(n-1=5)

(2)列联表(contingency table)χ2\chi^2检验
通过列联表来检验药物的效果:

药物1 药物2 对照组 总人数
sick(人数) 20(120*21%=25.3) 30(140*21%=29.4) 30(120*21%=25.3) 80(80/380=21%)
not sick(人数) 100(120-25.3=94.7) 110(140-29.4=110.6) 90(120-25.3=94.7) 300(300/380=79%)
总人数 120 140 120 380
  • 假设:
    H0:H_0:药品有效果 H1:H_1:药品没有效果
  • χ2\chi^2统计量
    统计学基础知识点刷题(task4)

1.上面两个例子中构造χ2\chi^2统计量并不像先前的例子直接,需要熟练掌握。
2.此处的自由度是(行数-1)(列数-1)

概念3:方差分析

1. 计算总的平方和SST
2. 计算组内和组间平方和

以上两步主要是为了理清组内、组间波动总的波动之间的关系,可参考视频(组内平方和和组间平方和)以及视频:计算总的平方和。同时,我们理解时也可以结合先前步骤进行理解。

3. F统计量假设检验

(1)该步骤主要是利用此前求出的总的平方和组内平方和以及组间平方和来构造F统计量进行假设检验。该统计量为:F=//F=\frac{{组间平方和}/{对应的自由度}}{{组内平方和}/{对应的自由度}}F分布实际是两个χ2\chi^2分布之比。
(2)应用场景:比如现有三组数据,要检验这三组数据对应的总体均值是否差异显著(可参考视频)。

概念4:演绎推理与归纳推理

1. 演绎推理

从事实出发使用逻辑步骤、运算或推理,得出其他事实的过程。比如,已知方程求得方程解的过程,一般的正向推导式证明等。

2. 归纳推理