多元线性回归模型的检验

1.总平方和、回归平方和、残差平方和

因变量体重是一个数值,这个数值一般来说不会太大,也不会太小,是在一个范围内的。我们可以简单认为,这个"范围”越大,人们的体重多样性越大(严格来说,范围大说明极差比较大。如何度量这个多样性呢?人们设计了很多指标。最简单的一种,就是总平方和(total sum of squares, TSS):

TSS = (weight_1 - weight_mean)^2 + (weight_2 - weight_mean)^2+ … + (weight_N - weight_mean)^2

式中weight_mean是真实身高的平均值:

weight_mean = (weight_1 + weight_2 + … + weight_N)/N

假如大家的体重"都"和均值有较大的差距,也就是体重比较多样,就会导致TSS比较大;反之,大家的体重如果集中在均值附近,TSS就比较小。如图1-1,黄色部分的长度,表示的就是单个样本体重与均值的距离,我们可以感觉到,黄线越长,它们的平方和就越大。

多元线性回归模型的检验

TSS实际上就是方差(variance),用来度量数据偏离均值的程度。数据为什么会偏离均值呢?因为个体之间(的自变量取值)是有差异的,导致它们的某个指标(因变量)各不相同。我们训练的多元线性回归模型是用来模拟自变量和因变量之间的关系的,那么,这个模型计算出来的因变量取值,与真实值的均值间,有多大的差距呢?为了度量这个差距,我们构造了一个指标,就是回归平方和(也叫可解释平方和,exlplained sum of suqres, ESS):

ESS = (weight_pred_1 - weight_mean)^2 + (weight_pred_2 - weight_mean)^2+ … + (weight_pred_N - weight_mean)^2

ESS度量的是模型计算出来的体重与真实的体重均值的偏离程度,就是图1-1中绿色线条长度的平方和,实际上是模型里蕴含的关于年龄,身高和体重之间关系的知识的量的大小。

TSS和ESS之间有什么关系呢?TSS = ESS + RSS,式中RSS是残差平方和(residual sum of squares),也就是最小二乘法中的代价函数.而残差平方和的计算方法是:

RSS = (weight_1 -weight_pred_1 )^2 + (weight_2 - weight_pred_2 )^2+ … + (weight_N - weight_pred_N)^2

残差平方和表示的是模型计算得到的因变量取值与真实值的差距,RSS越大,说明计算值与真实值差距越大。

注意在这里,TSS-ESS-RSS = 0

证明:

多元线性回归模型的检验

e表示残差,,在这里,残差之和为0,证明可见TSS = ESS + RSS证明

2.模型的拟合优度

常见的度量回归模型拟合优度的指标是决定系数。这个指标表示自变量和参数在多大程度上决定了因变量的取值。决定系数通常用R2来表示,它的计算方式是:R2=ESS/TSS = 1-RSS/TSS

式中,ESS是可解释平方和,TSS是因变量的方差,二者之比表示模型解释的方差在因变量总的方差中的比例。

决定系数的取值范围是[0,1],取值越大表示模型对因变量的解释越充分(自变量和因变量绝对有关系,看起来自变量决定了因变量),越小表示模型对因变量的解释越不充分(自变量对因变量的影响比较小)。

问题是,一般的模型中增加解释变量可以减少RSS从而增大R2,但是模型拟合的好坏与解释量是否增加并没有什么关系。因此我们通常使用一个调整决定系数( adjusted R square):

ajustedR2=[ESS/(n-k-1)]/[TSS/(n-1)]

其中n是训练样本的个数,k是自变量的个数, (n-k-1)是ESS的*度, n-1是TSS的*度.这样一来,自变量越多,决定系数就会越小。

这样,通常情况下调整决定系数越大则表示拟合效果越好。