广义多元线性回归

线性回归

在前面的课程中,我们介绍了线性回归,它将自变量和因变量之间的关系用线性模型来表示
从而能够根据已知的样本数据对未来的或者未知的数据进行估计,这种线性关系在二维空间中是一条直线,在三维空间中是一个平面,在高维空间中是一个超平面
广义多元线性回归
线性模型只能够应用于自变量和因变量是线性或者接近线性的情况,在现实生活中,数据之间存在着大量非线性的关系,为了解决这类问题,我们就需要对线性模型进行改进。

在这个预测商品房房价的例子中,我们假设这些数据之间符合线性关系,就可以得到一元线性回归模型,那么能否假设为其他模型呢?
广义多元线性回归
我们也可以假设,X和Y的对数之间是线性关系就可以得到这样的函数,这称为对数线性回归 l n y = w x + b ln_y=wx+b lny=wx+b,也可以写成这种形式 y = e w x + b y=e^{wx+b} y=ewx+b
广义多元线性回归
可以看到, X实际上是在e的指数尺度上的变化,X和Y之间是非线性关系。如果我们把这个 l n y ln_y lny用大写的 Y Y Y来表示,那么从X到大Y之间仍然是线性回归。
这个大Y是在小Y的外面又包裹了一层函数G,或者说在线性组合 w x + b wx+b wx+b的外面包裹了一层函数H,这个H和G互为逆函数,因此函数Y也可以表示为这种形式 y = h ( w x + b ) y=h(wx+b) y=h(wx+b)
广义多元线性回归
这样得到的模型称为广义线性模型,这个函数G称为联系函数。
在这个例子中,这个G的逆函数是指数函数,它还可以是任何一个单调可微函数,使用不同的联系函数就可以描述多种不同分布的数据。

还可以把广义线性回归推广到高维模型。
广义多元线性回归
这里的W和X都是M+1维的向量,M是属性的个数,X0=1可以看到,线性模型虽然简单却可以通过广义线性回归产生丰富的变化,满足实际任务中对非线性关系的需求。