最小二乘的几何解释
最小二乘主要用来做线性回归。
数据集形式为:(X,T),X ,T 分别代表自变量与因变量。用矩阵来表示训练数据时,往往每行代表一个数据。假设w 是回归系数,与x的维数相同。那么最小二乘估计形式为: ,L是loss function,包含了训练数据的所有误差,把误差分散在每个训练数据上。L(W)展开后的形式为:
。对展开式关于W求导后令倒数为0,得到
这就是回归系数的解析解。
下面我们看下几何解释:
如果我们对矩阵X以列的形式看,那它就形成一个p 维的子空间。由于噪声等影响,Y是一般是不在p维子空间上的。另外 ,考虑N维空间,坐标轴由表示,因此
是这个空间的一个向量。有N个点估计得到的基函数
同样可以使用基函数表示出来,记为
, 其中j 表示
的第j列,同时,
代表
的第n行。如果基函数的数目M小于样本数目N, 那么M个向量
就会张成一个M维的线性空间。我们定义y是一个N维向量,其第n个元素被定义为
。因为y 是由
线性组成的二值向量,它可以落在任何M维子空间的任何位置。平方和误差等价于(1/2缩放)y与t之间的欧式距离。寻找w的最优解的过程就是在子空间S中寻找一个一个向量y使其最接近 t。也就是说,y是t在子空间S上的正交投影。故有
求出w的形式与上面解析解相同,只不过他将误差分散在跟个样本的每个维度直接。
图来源于PRML
一般来说,直接求解可能会比较困难,尤其是当接近奇异的时候。特别地,当出现两个以上的
为线性相关,或者是近似线性相关时,所对应的解会有比较大的绝对值。