参考视频:可汗学院《统计学》
参考书籍:《深入浅出统计学》
概念1:线性回归
1. 场景
坐标系中若干点,要找出一条直线y=mx+b,使这些点到该直线上同一横坐标的点的距离平方和最小。需要求出斜率m和截距b。
注意:这里不是最小化这些点到该直线的距离的平方和,而是到直线的竖直距离(在主成分分析法中,求取新的主成分时采用的是最大化方差,采用了点到直线投影的可视化方式,与这里有些相似,注意不要混淆)。如下图:

2. 求直线的斜率和截距
主要通过最小化下图所示公式来求解,下面的方法就是有名的最小二乘回归:
SEline=i=1∑n(yi−(mxi+b))2=i=1∑nyi2−2i=1∑nyi∗(mxi+b)+i=1∑n(m2xi2+2mbxi+b2)=i=1∑nyi2−2mi=1∑nxiyi−2bi=1∑nyi+m2i=1∑nxi2+2mbi=1∑nxi+nb2=ny2−2mnxy−2bny+m2nx2+2mbnx+nb2
上式可以表述为一个三维曲面,求使得SEline最小化的m、b值,只需要求偏导均为0的点即可。三维曲面如图:
{∂m∂SEline=−2nxy+2mnx2+2bnx=0∂b∂SEline=−2ny+2mnx+2nb=0
化简可得:{x2∗m+x∗b=xyx∗m+b=y
设系数行列式为M=∣∣∣∣x2xx1∣∣∣∣则⎩⎪⎪⎪⎨⎪⎪⎪⎧m=M∣∣∣xyyx1∣∣∣b=M∣∣∣∣x2xxyy∣∣∣∣(∗)
注意:这里求出斜率m后直接代入原方程组中第二个等式即可得出b=y−m∗x。当然,(*)形式的结果与该结果都是一样的。
3. 拟合优度检验
拟合优度检验是为了检验回归直线对所有样本数据的拟合程度的,常用的有两个指标:决定系数R2(有的资料称为判定系数)以及样本相关系数。
(1)三类误差
首先,在理解上述指标之前,先要了解三类误差的含义及其计算公式,分别是SST(总的误差平方和),SSR(回归误差平方和),SSE(残差平方和)。计算公式如下:SST=∑(yi−y)2 (y 的总波动)SSR=∑(yi^−y)2SSE=∑(yi−yi^)2三类误差关系如下:SST=SSR+SSE
从含义上解释:SSR表示样本数据中能被回归模型解释的成分,而SSE表示样本数据中无法被回归模型解释的部分。
(2)判定系数R2
很显然,y的总波动y的波动被回归模型描述的部分公式即可反映该模型的拟合优度。公式如下:r2=SSTSSR=1−SSTSSE即SSE越小,则r2越大,拟合越佳。
(3)样本相关系数
ρ=(m的符号)r2m为回归直线的斜率。
具体请参考《商务与经济统计》第13版
注意:r2的取值范围为[0,1],而ρ的取值范围是[−1,1]。
4. 显著性检验
(1)除了进行拟合优度检验之外,还需要判断回归系数是否显著性地̸=0。因为当回归系数不等于0时,说明解释变量和被解释变量之间具有显著的线性关系(可能还有其他关系)。
关于回归分析的容易陷入误区
:
回归分析只能表示变量之间有无相关性,并不一定具有因果关系。是否具有因果关系,还需要分析统计人员根据具体场景进行确定。
(2)检验所需的统计量及其服从的分布
t=sb−β其中b是根据样本求出的回归方程系数(属于样本统计量),β是y=β0+β1x+ϵ中总体系数。
显著性假设就是根据样本所得的b,s来检验β̸=0是否显著。
(具体分析过程请参考《商务与经济统计第13版》)
注意
:
1.在求统计量中s的过程中,需要用的协方差和方差的概念,具体公式推导如下(这一点在《商务与经济统计》中没有说明):COV(X,Y)=E[(X−E(X))(Y−E(Y))]=E[XY−XE(Y)−YE(X)+E(X)E(Y)]=E(XY)−2E(X)E(Y)+E(X)E(Y)=E(XY)−E(X)E(Y)
COV(X,X)=E(X2)−(E(X))2上述公式与回归直线的斜率计算公式形式相近,能与证明回归系数分布时联系上(很重要)。
2.在得出显著性检验时所需要的t-分布的过程中,关于误差项ϵ的多项假设必不可少。(具体参见《商务与经济统计》第13版)
5. 残差分析
(1)证实模型假定
回归分析中对残差的基本假设是服从正态分布,如果这一点不满足,回归模型的立足点就出现问题。有如下两个图形化检验的方法:
以上两种方法,具体参见《商务与经济统计》第13版14.8节
注意
:
1.在参考视频中许多概念与本笔记概念有差别,个人觉得《商务经济与统计》一书中总结得很系统便采用其中的说法。之前在3.拟合优度检验中介绍了三类误差,视频:组内平方和和组间平方和分析的角度与该书有些许不同,但最终也得出了“总的波动=组内波动+组间波动”的关系形式,需要从波动的描述角度来考虑,其实二者结果是一样的。
2.方差分析与残差分析概念并不等同,目的也不相同,千万不要混淆。方差分析又称为ANOVA,方差有三个来源,分别是回归、残差(误差)以及总和,对应于SSR、SSE、SST;而残差是yi−yi^。前者的目的是弄清回归模型对于因变量的描述程度,即衡量模型的拟合程度;而后者的目的是为了检验模型关于误差项ϵ的正态性假设是否合理。
(2)检测异常值或有影响的观测值
异常值和有影响的观测值(如高杠杆率点)往往能对回归模型产生决定性的影响,在构建回归模型之前检测出这些点将会使你更好的构建模型。
总的来说,回归分析是一个比较系统全面的领域,以上还只是总结了简单回归分析,余下的还有多元回归分析、逻辑回归等等一系列模型。学习时要注意理清如下几点:
1.回归分析包含哪些步骤
2.每个步骤的目的是什么
3.每个步骤包含哪些方法,具体怎么做
4.学会应用之后再深入地理解回归分析每一步骤的原理
概念2:χ2-分布
1. 概念
N个相互独立的、服从标准正态分布的随机变量的平方和服从自由度为N的χ2-分布。
假设X1,X2…Xn是n个相互独立的随机变量且Xi∼N(0,1),则∑i=1nXi2∼χn2。
2. 分布曲线与自由度的关系

3. 两种χ2检验
(1)皮尔逊χ2检验
上图中的案例请见参考视频,要注意的是此案例中χ2统计量的构造是:
χ2=n−1∑(yi−yj)2,其中yi是观测值,yj是原始值。注意
这里自由度为(n−1=5)。
(2)列联表(contingency table)χ2检验
通过列联表来检验药物的效果:
– |
药物1 |
药物2 |
对照组 |
总人数 |
sick(人数) |
20(120*21%=25.3) |
30(140*21%=29.4) |
30(120*21%=25.3) |
80(80/380=21%) |
not sick(人数) |
100(120-25.3=94.7) |
110(140-29.4=110.6) |
90(120-25.3=94.7) |
300(300/380=79%) |
总人数 |
120 |
140 |
120 |
380 |
- 假设:
H0:药品有效果 H1:药品没有效果
-
χ2统计量
1.上面两个例子中构造χ2统计量并不像先前的例子直接,需要熟练掌握。
2.此处的自由度是(行数-1)(列数-1)
。
概念3:方差分析
1. 计算总的平方和SST
2. 计算组内和组间平方和
以上两步主要是为了理清组内、组间波动同总的波动之间的关系,可参考视频(组内平方和和组间平方和)以及视频:计算总的平方和。同时,我们理解时也可以结合先前步骤进行理解。
3. F统计量假设检验
(1)该步骤主要是利用此前求出的总的平方和、组内平方和以及组间平方和来构造F统计量进行假设检验。该统计量为:F=组内平方和/对应的自由度组间平方和/对应的自由度F分布实际是两个χ2分布之比。
(2)应用场景:比如现有三组数据,要检验这三组数据对应的总体均值是否差异显著(可参考视频)。
概念4:演绎推理与归纳推理
1. 演绎推理
从事实出发使用逻辑步骤、运算或推理,得出其他事实的过程。比如,已知方程求得方程解的过程,一般的正向推导式证明等。
2. 归纳推理