MIT 线性代数导论 第十五讲:子空间投影

本讲的主要内容有:

  • 投影的概念
  • 为什么要进行投影操作
  • 最小二乘法的介绍

投影(Projection)

首先再二维平面中直观的看一下投影的概念:
MIT 线性代数导论 第十五讲:子空间投影
如图,两个不同向的向量 aabb,其中 bb 落在 aa 的方向上的向量 pp 就是 bbaa 上的投影,其实就是构成一个直角,这跟我们生活中的理解是一样的,从图中,我们有以下的定义和结论:

  • 向量 pp ,它是向量 aa 的一部分,我们用式子 p=xap=xa 表示
  • 向量 ee,可以用 bpb-p 表示,即:e=bpe=b-p
  • eepp 正交,根据上一讲的内容,可以得出:
    aTe=0 a^{T}e=0
    根据上面 ee 的解释,可以有如下过程:
    aTe=0aT(bxa)=0 a^{T}e=0\Leftrightarrow a^{T}(b-xa)=0

继续拆分,最终可以得到关于常数 xx 的表达式:
x=aTbaTa x=\frac{a^{T}b}{a^{T}a}
又因为 p=xap=xa,代入,得:
p=aaTbata p=a\frac{a^{T}b}{a^{t}a}
如果我们将上面的式子继续写成某个矩阵乘 bb 的形式,可以得到:
p=Pb,P=aaTaTa p=P\cdot b,P=\frac{aa^{T}}{a^{T}a}

至此,我们得到了本讲的一个重要的矩阵 PP ,这个矩阵至少形式很有意思,实际上也有很多很好的性质:

  • PT=PP^{T} = P
  • P2=PP^{2}=P

目前我们是对二维平面中的向量得出了结论,当然这个结论是通用的,在接下来的内容中就可以到

为什么进行投影操作

在上一讲中,提到了, Ax=bAx=b 无解的时候,如何 “解” 的情况,Ax=bAx=b 没有解,也就是说 bb 不在 AA 的列空间里,所以,如果为了尽量减少对原本方程的影响,我们可以将 bb 映射到 AA 的列空间里, 这样方程就有解了,例如,以三维空间的平面为例:
MIT 线性代数导论 第十五讲:子空间投影
其中, AA 的列空间是一个二维平面,一组基向量为 a1a_{1}a2a_{2}bb 显然不在平面中,这也就对应着 Ax=bAx=b 是无解的,所以我们找到 bb 在平面中的投影 pp ,使用 pp 代替,那么方程有解,并且使得方程与原方程“近似”。
因为 pp 在平面中,所以可以使用基向量表示:
p=x1^a1+x2^a2 p=\hat{x_{1}}a_{1} + \hat{x_{2}}a_{2}
可以简写为:(两个基向量就可以组成平面)
p=Ax^ p=A\hat{x}
接下来考虑到 ee 是垂直于平面的,由上一讲的内容可以知道,这个向量正交于平面中的所有向量,所以可以表示为:
{a1T(bAx^)=0a2T(bAx^)=0,(e=bAx^) \left\{\begin{matrix} a_{1}^{T}(b-A\hat{x})=0\\ a_{2}^{T}(b-A\hat{x})=0 \end{matrix}\right.,(e=b-A\hat{x})
将上面的式子写成矩阵乘的形式:
(a1Ta2T)(bAx^)=(00) \begin{pmatrix} a_{1}^{T}\\ a_{2}^{T} \end{pmatrix} (b-A\hat{x})=\begin{pmatrix} 0\\ 0 \end{pmatrix}
上面的式子等价于:(第一个矩阵其实就是矩阵AA 的每个列向量转置了)
AT(bAx^)=0 A^{T}(b-A\hat{x})=0
推导出这一步,可是说很重要,这个方程跟第一块我们得出方程形式是一致的(所以第一部分的结论可以推广),如果我们进一步分析这个方程,可以有这样的结论:

  • ee 是在 N(AT)N(A^{T}) 中的
  • e正交于 C(A)C(A)

继续拆分上面的方程,并写到方程的两边,可以得到:
ATAx^=ATbx^=(ATA)1ATb A^{T}A\hat{x} = A^{T}b\Rightarrow \hat{x} = (A^{T}A)^{-1}A^{T}b
将上面的结论代入到 p=Ax^p = A\hat{x} 中,可以得到:
p=Ax^=A(ATA)1Atb,P=A(ATA)1At p = A\hat{x}=A(A^{T}A)^{-1}A^{t}b,,记P=A(A^{T}A)^{-1}A^{t}
注意这个式子有很多转置还有逆运算,看起来是可以进行化简的,实际上不可以,因为这些矩阵可能不是方阵,也就是说单个来看 AA 是没有逆的,所以有必要保留这个形式。
对于:
P=A(ATA)1At P=A(A^{T}A)^{-1}A^{t}
它的形式非常熟悉,因为我们在第一部分已经推导出了形式一致的结论,并且也符合两个结论:

  • PT=PP^{T} = P
  • P2=PP^{2}=P

这个矩阵 PP 以及上面的方程 ATAx^=ATbA^{T}A\hat{x} = A^{T}b 是之后一些应用的数学依据。

这一部分的过程看起来比较繁琐,实际上只要按照方程一步一步推导,是很容易得出结论的。

最小二乘法(Least Square)

这一讲最后还降到了这个问题,最小二乘法其实就是上面我们得到的几个结论的应用,比如,在拟合一些数据点的时候:
MIT 线性代数导论 第十五讲:子空间投影
假设有三个数据点(1,1)、(2,2)、(3,2),我们要找到一条直线尽可能地描述这三个点的位置,
设最优直线 : b=C+Dtb = C+ Dt
也就是:
{C+D=1C+2D=2C+3D=2 \left\{\begin{matrix} C+D=1\\ C+2D=2\\ C+3D=2 \end{matrix}\right.

我们将其写成矩阵乘的形式:
(112231)(CD)=(123) \begin{pmatrix} 1 & 1\\ 2 & 2\\ 3 & 1 \end{pmatrix}\begin{pmatrix} C\\ D \end{pmatrix}=\begin{pmatrix} 1\\ 2\\ 3 \end{pmatrix}
非常显然,这是没有解的,联系这一节我们讲的,也就是对于无解的 Ax=bAx=b 找到最优的的“解”
所以,根据结论,直接将原来的方程转化为:
ATAx^=ATb A^{T}A\hat{x} = A^{T}b
这个方程是有解并且最优的。

以上~