投影矩阵与最小二乘的背后联系

原文链接:http://blog.****.net/jbb0523/article/details/41477723


在搜索投影矩阵时搜到了一篇博客:投影矩阵与最小二乘(一),作者一共写了三篇,写的很不错,从作者第一篇中开头提到“Strang教授”,搜索一下此人可以搜到麻省理工的开放课程线性代数,在暴风影音里可以搜到,这个公开课共35讲,其中第16讲是投影矩阵和最小二乘,估计投影矩阵与最小二乘(一)就是基于这一讲内容的吧,今天我也看过了,讲得挺不错的,计划后续将35讲都看一下,学习压缩感知,线性代数的基础是必备的,35讲在国内也就是个2学分的课而已,坚持一下就可以了。

下面开始讲什么是投影矩阵,主要基于投影矩阵与最小二乘(一)和公开课16讲,所以思路和投影矩阵与最小二乘(一)也差不多了。

========================正文========================

公开课第16讲中提到,如果有三个点(1,1),(2,2),(3,2),希望有一条线y=C+Dt来逼近这些点,由这三个点实际上可以得到三个方程:

C+D*1=1

C+D*2=2

C+D*3=2

这个方程可以写成矩阵的形式:

投影矩阵与最小二乘的背后联系

这个方程组由于矩阵A的秩R(A)=2(秩等于列的个数,即矩阵A的列是线性无关的),小于增广矩阵的秩R(A,b)=3,因此方程组无解,即不存在一条直线穿过这三个点(1,1),(2,2),(3,2)。

所以我们就用最小二乘法拟合一条直线使这三个点到直线的距离的平方和最小。怎么求拟合曲线的C和D呢?

投影矩阵与最小二乘的背后联系

这个过程是从数学上来推导的,从几何意义上如何来理解这个问题呢?

首先对于矩阵A来讲共有两个列向量,A=[a1,a2],两个向量会确定一个平面(个人理解就此平面就是由A的列向量生成的子空间),而对于b来说也是一个向量,求C和D的过程实际上就是用向量a1和a2的线性组合来表示向量b的过程,即:

投影矩阵与最小二乘的背后联系

但实际上,向量b并不在向量a1和a2确定的平面上,即不能用向量a1和a2的线性组合来表示向量b,这时可以用向量a1和a2表示一个向量p,使向量p最接近于向量b,或者说使||b-p||2最小,即前面说的用最小二乘法拟合一条直线使这三个点到直线的距离的平方和最小。从几何上我们知道这个向量p就是向量b在由a1和a2所确定的平面上的正交投影。如何由向量b得到向量p呢?即如何得到向量b的正交投影p呢?我们可以通过一个矩阵变换来实现:

投影矩阵与最小二乘的背后联系

因此,正交投影和投影矩阵是不一样子的,正交投影p是向量b在平面(由矩阵A的列向量a1和a2确定)上正交投影,而投影矩阵是从向量b变换到其正交投影p过程中的变换矩阵P:

投影矩阵与最小二乘的背后联系

这里可以用一幅空间里的图来表示:

投影矩阵与最小二乘的背后联系

========================结语========================

至此,投影矩阵说完了,有新的感悟再继续写吧……

===================补充(2014.11.26)=================

百度了一下“压缩感知  投影矩阵”,发现会搜到好多论文,突然意识到他们论文里提到的“投影矩矩”不是我这里在数学上所说的“投影矩阵”:

y=Φx,其中x为信号,y为观测值,Φ即为他们所说的投影矩阵,一般还称为观测矩阵

x=Ψθ,其中Ψ为稀疏矩阵或稀疏基

从这个问题里也反应了叫法不一样的不利之处。

我们这里经过投影矩阵P的变换,由向量b得到向量p,由于p是b的正交投影,所以这个矩阵P应该称为正交投影矩阵吧,感觉再写长一点更好:正交投影变换矩阵,这样就混淆不了概念了。