最小二乘的几何解释

      近日学到了矩阵论老师对最小二乘的几何解释,有一种让人眼前一亮的感觉,特开此篇记录一下。在SLAM中也大量的运用最小二乘,有的利用矩阵分解直接求解,有的利用迭代优化的方式求解,忙完这一阵过后。把矩阵分解的先关数学知识也做一下整理,希望对SLAM的后端有更一步的认识。

1.投影与投影映射

      假设S,TS,Tnn-维酉(欧氏)空间VV的子集,且V=STV=S \oplus T,其中\oplus代表S,VS,V构成直和关系且S,VS,V构成全空间VV(V=S+VV = S + V)。对与αV\forall \alpha \in V,可唯一的表示为:
α=x+y,xS,yT \alpha = x + y, x\in S, y \in T

      称xxα\alpha沿TTSS上的投影,yyα\alpha沿SSTT上的投影,也称TS,T:VS\mathcal{T}_{S,T}:V \rightarrow SVV沿着TTSS的投影映射。

值得注意的是:

  1. 上式的分解是唯一的,这种唯一性是由直和决定的。所谓直和关系,即空间ST={0}S \cap T = \{0\},可以理解为构成S,TS,T这两个空间的基底是线性无关的。

  2. 投影映射是线性映射,对与一个投影映射TS,T\mathcal{T}_{S,T}存在一个矩阵表示AA,并且A2=AA^2 = A即投影映射的矩阵表示一定是一个幂等矩阵

唯一性的简单证明:
最小二乘的几何解释
      当上式中的STS \perp T时,称这个投影映射为正交映射。正交映射有很多优良的性质,当为正交映射时,TT空间中的任意向量与SS空间中的任意向量是正交的,即TT空间中的任意向量与SS空间的基底是正交的。

      然鹅,正交投影和最小二乘又有什么关系呢?这要说明一下勾股定理,没错,你没看错!

2.高维空间的勾股定理

      对于二维空间,我们知道三角形的斜边的平方等于两个直角边的平方和。但是这种关系在高维空间中是否还如此优美呢?

      这里我们要先明确一下长度的概念,向量的长度是通过内积定义的即α=<α,α>=αHα||\alpha||= \sqrt{<\alpha,\alpha>}=\sqrt{\alpha^H \alpha}。现在假设在欧氏空间Vn(R)Vn(R)中,有a,ba,b两个向量,那么ab2=?a2+b2||a-b||^2=?||a||^2+||b||^2成立吗?

我们计算一下长度不就可以解决了:
最小二乘的几何解释
      这似乎是差了一点东西啊,那为什么在二维空间中成立呢,因为它是直角三角形啊,a,ba,b是垂直的,也就是正交的<a,b>=<b,a>=0<a,b> = <b,a> = 0。若是在高维空间中也有这种关系,那勾股定理也就成立了,任意在SS空间中取aa向量,在TT空间中取一个bb向量,这不天然满足正交要求吗,高维勾股定理不就天然成立了,这也是正交分解的一个美妙啊。

3.最小二乘

      啰嗦了半天,重于到重点了,先放一张镇楼图.
最小二乘的几何解释
      最小二乘问题,举个例子,就是对全空间VV中的向量α\alpha,在VV的子空间WW中找到一个β\beta,使它与α\alpha最像,即αβmin||\alpha-\beta||_{min}

      子空间是线性子空间的简称,它是VV的一个非空子集,并且满足线性空间的封闭性。假设α1,α2,...αs\alpha_1,\alpha_2,...\alpha_sVV中的一组向量,那么非空集合span{α1,α2,...αs}={α1k1+α2k2+...+αsks}span\{\alpha_1,\alpha_2,...\alpha_s\}=\{\alpha_1k_1+\alpha_2k_2+...+\alpha_sk_s\}构成了线性空间VV的一个子空间,而且这里的kik_i不做要求,可以全是零。至于为什么是在子空间中寻找,我们通过后面的例子来说明。

      上述的重点是αβ||\alpha-\beta||什么时候取到最小呢,如上图所示,我们可以直观的感受到当向量αβ\alpha-\betaWW平面垂直时,它的长度是最小的。那么对应的与α\alpha最像的β\beta不就是向量α\alphaWW空间上的正交投影吗。用向量的语言来描述一哈,就是βW\forall \beta \in W,当且仅当αβW\alpha-\beta \perp W时,αβ||\alpha -\beta||是最小的。不妨来证明一下在nn维度空间他是成立的:
最小二乘的几何解释
这说明α\alpha的正交投影就是他的最小二乘解。

4.如何求解

      我们知道αβ||\alpha-\beta||取得最小的条件了,那求解β\beta也就变得容易了。

WW空间的一组基ϕ=[α1,α2,...αm]\phi=[\alpha_1,\alpha_2,...\alpha_m],在WW空间中的任意一个向量可以表示为β=[α1,α2,...αm]x\beta = [\alpha_1,\alpha_2,...\alpha_m]x。根据最小二乘的条件,αV,αβW\forall \alpha \in V,当且仅当\alpha-\beta \perp W时,β\betaα\alpha的最小二乘解。

我们前边提过,αβW\alpha-\beta \perp W等价于αβαi,i=1,2,..m\alpha-\beta \perp \alpha_i,i=1,2,..m。于是有:
最小二乘的几何解释

5.数据拟合

      有例子有真相,上边的理论怎么应用呢,我们来看一下数据拟合的例子:

最小二乘的几何解释
      ​已知测量的$n$个点,$(x_1,y_1),(x_2,y_2),...(x_n,y_n)$,求做函数$y=f(x)$,达到最佳拟合效果。其中$f(x)$在一定的函数类中找,$f(x)=k_1\varphi_1(x)+k_2\varphi_2(x)+...+k_m\varphi_m(x)$($\varphi(x)一般是线性无关的$,例如$\varphi_k(x)=x^{k-1}$)。

解:
最小二乘的几何解释