gDLPCA

文章目录

思想
PCA
gLPCA
gDLPCA

优化求解
gDLPCA算法

参考论文：Graph-dual Laplacian principal component analysis
作者：Jinrong He · Yingzhou Bi · Bin Liu · Zhigao Zeng

思想

近年来，研究表明，高维数据不仅存在于数据空间的低维流形上，特征也存在于特征空间的流形上。然而PCA，gLPCA都忽略了特征空间中包含局部几何结构。

PCA

PCA详见本人另一篇文章【机器学习】【降维】PCA主成分分析
【机器学习】Graph-dual Laplacian principal component analysis(gDLPCA)
其中 $X$ 是中心化后的数据矩阵， $V$ 是投影矩阵。

PCA的局限性：

PCA只能识别线性子空间，不能发现非线性数据流行数据。
主成分的解释可能会很困难，虽然主成分分析确定的维度是作为原始特征空间的线性组合构成的不相关变量，但它们仍然没有物理意义。（为提高从PCA中提取主成分的可解释性，提出诸多变体，如：引入非负矩阵分解NMF，或采用稀疏非零载荷的SPCA）
对异常值敏感

gLPCA

【机器学习】Graph-dual Laplacian principal component analysis(gDLPCA)
其中 $\lambda$ 为正则化参数， $L=D-W$ 。
上式固定Y，对V求导：

从而： $V^*=X*Y^T$ ,带回目标函数得到：

【机器学习】Graph-dual Laplacian principal component analysis(gDLPCA)
可做以下变换：

所以将目标函数转化为以下最小化公式：

令 $G_a=-X^TX+\lambda L$ ,于是最优的 $Y$ 就是 $G_a$ 的前r个最小特征值对应的特征向量组成的矩阵。

注：这里的X已经中心化

gLPCA的局限性：

仍然对异常值敏感
只考虑到数据流形，忽略特征流行

gDLPCA

$X∈R^{d*n}$ ， $d$ 表示特征数， $n$ 表示样本数， $x_i$ 表示一列（第 $i$ 个样本）， $x^j$ 表示一行（第 $j$ 个特征）

首先，同样与gLPCA，构造样本图 $G^{d}=(X^T,W^d)$ ：

其中 $N_k(x_i)$ 表示 $x_i$ 的k近邻的集合。对应的样本图拉普拉斯矩阵为 $L^d=D^d-W^d,D^d=\sum_{j≠i}W_{ij}^d$
其次，对于{ ${(x^1)^T,(x^2)^T,...,(x^d)^T}$ }构造特征图 $G^{f}=(X^T,W^f)$ ：

其中 $N_k(x^j)$ 表示 $x^j$ 的k近邻的集合。对应的特征图拉普拉斯矩阵为 $L^f=D^f-W^f,D^f=\sum_{j≠i}W_{ij}^f$
gDLPCA

其中， $\alpha ,\beta>0$ 都是正则化参数。当 $\alpha=0$ 时，就是gLPCA，当 $\alpha=0 ,\beta=0$ 时，就是PCA。

注意：由于上面目标函数的最优解 $(V,Y)$ 是不唯一的，因为上式中的迹函数的正交不变性，也就是说， $(V,Y)$ 是最优解，只有 $(VQ,Q^TY)$ 对于任意正交矩阵 $Q$ 也是最优解时，才成立，说明如下：

目标函数的第一项可以表示为：
【机器学习】Graph-dual Laplacian principal component analysis(gDLPCA)
目标函数的第二项可以表示为：

显然 $(VQ,Q^TY)$ 是最优解。

优化求解

目标函数的第一项，可被转化为：
【机器学习】Graph-dual Laplacian principal component analysis(gDLPCA)
带回目标函数得到：

等价于：

所以，可以通过求 $L_{\alpha,\beta}$ 的前r个最小特征值，和对应的特征向量，就可以得到最优的 $V$ 。
为了计算稳定性，协方差矩阵 $XX^T$ 的最大特征值（赋值给 $w_n$ ）用于规范化 $XX^T$ ，特征图拉普拉斯矩阵 $L^f$ 的最大特征值（赋值给 $\alpha_n$ ）用于规范 $L^f$ ，数据散度矩阵 $XL^dX^T$ 的最大特征值（赋值给 $\beta_n$ ）用于规范化 $XL^dX^T$ 。
假设：
【机器学习】Graph-dual Laplacian principal component analysis(gDLPCA)
于是得到：

令