PCA降维(一)基础理论

PCA(主成分分析,principal components analysis)是最常用的无监督式降维方法,其核心思想是寻找一组低维空间的正交基来投影原始空间数据,在保证尽可能保留原始数据信息的同时,降低数据特征空间。

一、几何解释

在二维几何空间内来理解PCA的大致思路:即对于二维空间内的一堆散点,寻找一条直线,使得各点在直线上进行表示某种度量能够尽可能的体现散点在二维空间内的分布情况。

推广到高维空间中,即需找这样的超平面。
PCA降维(一)基础理论
看过线性回归(一)基础理论的朋友不难发现,这种表示和线性回归非常类似,区别在于在线性回归中,每个点有对应的标签YY来度量;而对于PCA,并没有,也不需要对应的标签YY。那究竟PCA是如何进行某种度量的呢?

一种直觉是,将这些点投影到某个超平面上,这些点在超平面上越分散越好。至于如何评价分散程度?在中心化的基础上用方差表示!这对应于投影方差最大的推导。

另一种直觉是,将这些点投影到某个超平面上,这些点到超平面投影点的距离越小越好。这对应于投影距离最近的推导。

从信号分析的角度理解,投影方差最大即最大化原始信号(数据)中的信息,而投影距离最近即最小化原始信号(数据)中的噪声。因此,PCA的过程也就是寻求最大信噪比的过程。

二、基于投影最大方差的推导

按照惯例,对推导中涉及的变量进行定义:
原始数据中心化后为Xm×n=[x1(1)x2(1)...xn(1)x1(2)x2(2)...xn(2)............x1(m)x2(m)...xn(m)]\boldsymbol X_{m\times n}=\left[ \begin{matrix} x_1^{(1)}& x_2^{(1)}&...&x_n^{(1)}\\ x_1^{(2)}& x_2^{(2)}&...&x_n^{(2)} \\ ...&...&...&...\\x_1^{(m)}& x_2^{(m)}&...&x_n^{(m)} \end{matrix} \right]

中心化的目的:中心化后的数据在进行线性变换后仍保持中心化,从而可以方便方差或投影距离的推导

线性变换正交矩阵Wp×n\boldsymbol W_{p\times n},将数据由nn维空间投影至pp维空间,各向量为正交基。

数据向量x(i)x^{(i)}经线性变换后得到z(i)z^{(i)},即z(i)=x(i)WTz^{(i)}=x^{(i)}\boldsymbol W^T,数据矩阵Xm×n\boldsymbol X_{m\times n}经线性变换后得到Zm×p=XWT\boldsymbol Z_{m\times p}=\boldsymbol X \boldsymbol W^T

因为X\boldsymbol X经过中心化处理,即i=1mx(i)=0\sum\limits_{i=1}^mx^{(i)}=0。线性变换后的数据i=1mz(i)=i=1mx(i)WT=0\sum\limits_{i=1}^mz^{(i)}=\sum\limits_{i=1}^mx^{(i)}\boldsymbol W^T=0,仍保持中心化,因此变换后某点的方差为z(i)z(i)Tz^{(i)}*z^{(i)T}

可知,投影后各点的平方和为tr(ZZT)=tr(XWTWXT)tr(\boldsymbol {ZZ^T})=tr(\boldsymbol {XW^TWX^T})
根据矩阵迹的交换律(见https://blog.****.net/guofei_fly/article/details/101690738),可进一步写为tr(WXTXWT)tr(\boldsymbol {WX^TXW^T})

至此,基于投影最大方差的问题可转化为如下最优化问题:arg minWtr(WXTXWT)s.t.   WWT=I\begin{aligned} &-\argmin\limits_\boldsymbol {W}tr(\boldsymbol {WX^TXW^T}) \\ &s.t. \space\space\space \boldsymbol {WW^T=I}\end{aligned}

利用拉格朗日函数求解上述带等式约束的的最优化问题:
arg minλ,Wtr(WXTXWT+λ(WWTI))\argmin\limits_{\lambda,\boldsymbol {W}}tr(-\boldsymbol {WX^TXW^T} +\lambda( \boldsymbol {WW^T-I}))

目标函数对W\boldsymbol {W}求导,可得当2WXTX+2λW=0-2\boldsymbol {WX^TX}+2\lambda\boldsymbol {W}=0时,即XTXWT=λWT\boldsymbol {X^TXW^T}=\lambda\boldsymbol {W^T}时,目标函数取最小值。
根据特征值和特征向量的定义,WT\boldsymbol {W^T}XTX\boldsymbol {X^TX}(即协方差矩阵)的特征向量,在此特征向量为基的超平面上,投影方差最大。

三、基于投影距离最近的推导

数据向量x(i)x^{(i)}经线性变换后得到z(i)z^{(i)},即z(i)=x(i)WTz^{(i)}=x^{(i)}\boldsymbol W^T,注意到此时z(i)z^{(i)}为在WT\boldsymbol W^T坐标系下的表示,若变换为在原始默认基(绝对坐标系下)的表示,则需写成z(i)=x(i)WTWz^{'(i)}=x^{(i)}\boldsymbol {W^TW}

根据投影距离向量为原始向量和投影向量的差,可得:
Δx(i)=x(i)x(i)WTW\Delta x^{(i)}=x^{(i)}-x^{(i)}\boldsymbol {W^TW}
所以,各点的投影距离之和可写成:
J=i=1mΔx(i)22=i=1m(x(i)x(i)WTW)(x(i)x(i)WTW)T=i=1m(x(i)z(i)W)(x(i)TWTz(i)T)=i=1mx(i)x(i)Tz(i)z(i)T=i=1mx(i)x(i)Tx(i)WTWx(i)T\begin{aligned}J & =\sum\limits_{i=1}^m||\Delta x^{(i)}||^2_2\\ & =\sum\limits_{i=1}^m(x^{(i)}-x^{(i)}\boldsymbol {W^TW})(x^{(i)}-x^{(i)}\boldsymbol {W^TW})^T\\&=\sum\limits_{i=1}^m(x^{(i)}-z^{(i)}\boldsymbol W)(x^{(i)T}-\boldsymbol W^Tz^{(i)T})\\&=\sum\limits_{i=1}^mx^{(i)}x^{(i)T}-z^{(i)}z^{(i)T}\\&=\sum\limits_{i=1}^mx^{(i)}x^{(i)T}-x^{(i)}\boldsymbol {W^TW}x^{(i)T}\end{aligned}
欲求投影距离之和最小,即使得i=1mx(i)WTWx(i)T-\sum\limits_{i=1}^mx^{(i)}\boldsymbol {W^TW}x^{(i)T}最小,写成矩阵形式为tr(XWTWXT)tr(\boldsymbol{XW^TWX^T})

与基于投影最大方差的推导类似,最终得到带求解的带约束最优化问题:
arg minWtr(WXTXWT)s.t.   WWT=I\begin{aligned} &-\argmin\limits_\boldsymbol {W}tr(\boldsymbol {WX^TXW^T}) \\ &s.t. \space\space\space \boldsymbol {WW^T=I}\end{aligned}
该式与基于投影最大方差的推导结果完全一样。

四、小结

根据上面的推导,PCA降维的主要流程为:
(1)将数据进行中心化处理;
(2)求协方差矩阵XTX\boldsymbol {X^TX}的特征向量
(3)以上述特征向量为正交基,将数据投影到目标超平面上,即得到最终的降维结果。

值的注意的是,正如在矩阵的个人理解中所介绍的,矩阵的行/列(样本/特征)是可以*定义的。上述推导过程中是以特征维度的缩减作为目标的,得到更少的特征表达方式,所以被称之为主成分分析。同样的,我们可以以数据的缩减为目标,剔除多余的数据样本。两者都可行,且均有应用。