降维方法（二）---SVD

SVD不仅是一个数学问题，在工程应用中的很多地方都有它的身影，比如前面讲的PCA，PCA的实现一般有两种，一种是之前文章提到的用特征值分解去实现的，一种是用奇异值分解去实现的。掌握了SVD原理后再去看PCA那是相当简单的，在推荐系统方面，SVD更是名声大噪，将它应用于推荐系统的是Netflix大奖的获得者Koren，可以在Google上找到他写的文章；在机器学习领域，有相当多的应用与奇异值都可以扯上关系，比如做feature reduction的PCA，做数据压缩（以图像压缩为代表）的算法。

用SVD可以很容易得到任意矩阵的满秩分解，用满秩分解可以对数据做压缩。可以用SVD来证明对任意M*N的矩阵均存在如下分解：

降维方法（二）---SVD
这个可以应用在数据降维压缩上！在数据相关性特别大的情况下存储X和Y矩阵比存储A矩阵占用空间更小！在讲解之前先补充一些矩阵相关知识。

一、奇异值与特征值基础知识：

特征值分解和奇异值分解在机器学习领域都是属于满地可见的方法。两者有着很紧密的关系，我在接下来会谈到，特征值分解和奇异值分解的目的都是一样，就是提取出一个矩阵最重要的特征。先谈谈特征值分解吧：

1）特征值：

如果说一个向量v是方阵A的特征向量，将一定可以表示成下面的形式：

降维方法（二）---SVD

这时候λ就被称为特征向量v对应的特征值，一个矩阵的一组特征向量是一组正交向量。特征值分解是将一个矩阵分解成下面的形式：

降维方法（二）---SVD

其中Q是这个矩阵A的特征向量组成的矩阵，Σ是一个对角阵，每一个对角线上的元素就是一个特征值。我这里引用了一些参考文献中的内容来说明一下。首先，要明确的是，一个矩阵其实就是一个线性变换，因为一个矩阵乘以一个向量后得到的向量，其实就相当于将这个向量进行了线性变换。比如说下面的一个矩阵：

降维方法（二）---SVD

它其实对应的线性变换是下面的形式：

降维方法（二）---SVD
因为这个矩阵M乘以一个向量(x,y)的结果是：

降维方法（二）---SVD

上面的矩阵是对称的，所以这个变换是一个对x，y轴的方向一个拉伸变换（每一个对角线上的元素将会对一个维度进行拉伸变换，当值>1时，是拉长，当值<1时时缩短），当矩阵不是对称的时候，假如说矩阵是下面的样子：

降维方法（二）---SVD

它所描述的变换是下面的样子：

降维方法（二）---SVD

这其实是在平面上对一个轴进行的拉伸变换，如果我们想要描述好一个变换，那我们就描述好这个变换主要的变化方向就好了。反过头来看看之前特征值分解的式子，分解得到的Σ矩阵是一个对角阵，里面的特征值是由大到小排列的，这些特征值所对应的特征向量就是描述这个矩阵变化方向（从主要的变化到次要的变化排列）

当矩阵是高维的情况下，那么这个矩阵就是高维空间下的一个线性变换，这个线性变化可能没法通过图片来表示，但是可以想象，这个变换也同样有很多的变换方向，我们通过特征值分解得到的前N个特征向量，那么就对应了这个矩阵最主要的N个变化方向。我们利用这前N个变化方向，就可以近似这个矩阵（变换）。也就是之前说的：提取这个矩阵最重要的特征。总结一下，特征值分解可以得到特征值与特征向量，特征值表示的是这个特征到底有多重要，而特征向量表示这个特征是什么，可以将每一个特征向量理解为一个线性的子空间，我们可以利用这些线性的子空间干很多的事情。不过，特征值分解也有很多的局限，比如说变换的矩阵必须是方阵。

二、奇异值分解

从几何层面上去理解二维的SVD：对于任意的 2 x 2 矩阵，通过SVD可以将一个相互垂直的网格(orthogonal grid)变换到另外一个相互垂直的网格。

我们可以通过向量的方式来描述这个事实: 首先，选择两个相互正交的单位向量 v1 和 v2, 向量Mv1 和 Mv2 正交。

降维方法（二）---SVD
u1 和 u2分别表示Mv1 和 Mv2方向上的单位向量，σ1 * u1 = Mv1 和 σ2 * u2 = Mv2。σ1 和 σ2分别表示这不同方向向量上的模，也称作为矩阵 M 的奇异值。

降维方法（二）---SVD

这样我们就有了如下关系式

Mv₁ = σ₁u₁
Mv₂ = σ₂u₂

我们现在可以简单描述下经过 M 线性变换后的向量 x 的表达形式。由于向量v1 和 v2是单位正交基，我们可以得到如下式子：

x = (v₁x) v₁ + (v₂x) v₂

这就意味着：

Mx = (v₁x) Mv₁ + (v₂x) Mv₂
Mx = (v₁x) σ₁u₁ + (v₂x) σ₂u₂

向量内积可以用向量的转置来表示，如下所示

vx = v^Tx

最终的式子为

Mx = u₁σ₁ v₁^Tx + u₂σ₂ v₂^Tx
M = u₁σ₁ v₁^T + u₂σ₂ v₂^T

上述的式子经常表示成

M = UΣV^T

u 矩阵的列向量分别是u1,u2 ，Σ 是一个对角矩阵，对角元素分别是对应的σ1 和 σ2，V 矩阵的列向量分别是v1,v2。上角标 T 表示矩阵 V 的转置。

这就表明任意的矩阵 M 是可以分解成三个矩阵。V 表示了原始域的标准正交基，u 表示经过 M 变换后的co-domain的标准正交基，Σ 表示了V 中的向量与u 中相对应向量之间的关系。

从矩阵的角度理解,特征值分解是一个提取矩阵特征很不错的方法，但是它只是对方阵而言的，在现实的世界中，我们看到的大部分矩阵都不是方阵，比如说有N个学生，每个学生有M科成绩，这样形成的一个N * M的矩阵就不可能是方阵，我们怎样才能描述这样普通的矩阵呢的重要特征呢？奇异值分解可以用来干这个事情，奇异值分解是一个能适用于任意的矩阵的一种分解的方法：

M = UΣV^T

那么奇异值和特征值是怎么对应起来的呢？首先，我们将一个矩阵M的转置*M，将会得到一个方阵，我们用这个方阵求特征值可以得到：

降维方法（二）---SVD

是降维方法（二）---SVD 的特征值分解，这里得到的v，就是我们上面的右奇异向量。此外我们还可以得到：

降维方法（二）---SVD

这里的σ就是上面说的奇异值，u就是上面说的左奇异向量。奇异值σ跟特征值类似，在矩阵Σ中也是从大到小排列，而且σ的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说，我们也可以用前r大的奇异值来近似描述矩阵，这里定义一下部分奇异值分解：

降维方法（二）---SVD

r是一个远小于m、n的数，这样矩阵的乘法看起来像是下面的样子：

降维方法（二）---SVD

右边的三个矩阵相乘的结果将会是一个接近于M的矩阵，在这儿，r越接近于n，则相乘的结果越接近于M。而这三个矩阵的面积之和（在存储观点来说，矩阵面积越小，存储量就越小）要远远小于原始的矩阵M，我们如果想要压缩空间来表示原矩阵M，我们存下这里的三个矩阵：U、Σ、V就好了。

三、奇异值分解方法

奇异值分解方法是利用M.H*M求解，过程如下：

降维方法（二）---SVD

但是在实际应用中，奇异值的计算是一个难题，是一个O(N^3)的算法。在单机的情况下当然是没问题的，matlab在一秒钟内就可以算出1000 * 1000的矩阵的所有奇异值，但是当矩阵的规模增长的时候，计算的复杂度呈3次方增长，就需要并行计算参与了。Google的吴军老师在数学之美系列谈到SVD的时候，说起Google实现了SVD的并行化算法，说这是对人类的一个贡献，但是也没有给出具体的计算规模，也没有给出太多有价值的信息。

其实SVD还是可以用并行的方式去实现的，在解大规模的矩阵的时候，一般使用迭代的方法，当矩阵的规模很大（比如说上亿）的时候，迭代的次数也可能会上亿次，如果使用Map-Reduce框架去解，则每次Map-Reduce完成的时候，都会涉及到写文件、读文件的操作。个人猜测Google云计算体系中除了Map-Reduce以外应该还有类似于MPI的计算模型，也就是节点之间是保持通信，数据是常驻在内存中的，这种计算模型比Map-Reduce在解决迭代次数非常多的时候，要快了很多倍。

Lanczos迭代就是一种解对称方阵部分特征值的方法（之前谈到了，解A’* A得到的对称方阵的特征值就是解A的右奇异向量），是将一个对称的方程化为一个三对角矩阵再进行求解。按网上的一些文献来看，Google应该是用这种方法去做的奇异值分解的。请见Wikipedia上面的一些引用的论文，如果理解了那些论文，也“几乎”可以做出一个SVD了。

四、应用实例---减噪

前面的例子的奇异值都不为零，或者都还算比较大，下面我们来探索一下拥有零或者非常小的奇异值的情况。通常来讲，大的奇异值对应的部分会包含更多的信息。比如，我们有一张扫描的，带有噪声的图像，如下图所示

降维方法（二）---SVD

我们采用跟实例二相同的处理方式处理该扫描图像。得到图像矩阵的奇异值：

σ₁ = 14.15
σ₂ = 4.67
σ₃ = 3.00
σ₄ = 0.21
σ₅ = 0.19
...
σ₁₅ = 0.05

很明显，前面三个奇异值远远比后面的奇异值要大，这样矩阵 M 的分解方式就可以如下：

降维方法（二）---SVD

经过奇异值分解后，我们得到了一张降噪后的图像。

降维方法（二）---SVD

参考文献：

http://wenku.baidu.com/view/e600ac060740be1e650e9a03.html

http://www-users.math.umn.edu/~lerman/math5467/svd.pdf

http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html

http://blog.sciencenet.cn/blog-696950-699432.html

http://blog.sina.com.cn/s/blog_3f738ee00102val0.html

降维方法（二）---SVD

相关推荐