【机器学习】Graph-dual Laplacian principal component analysis(gDLPCA)

gDLPCA


参考论文:Graph-dual Laplacian principal component analysis
作者:Jinrong He · Yingzhou Bi · Bin Liu · Zhigao Zeng

思想

  近年来,研究表明,高维数据不仅存在于数据空间的低维流形上,特征也存在于特征空间的流形上。然而PCA,gLPCA都忽略了特征空间中包含局部几何结构。

PCA

PCA详见本人另一篇文章【机器学习】【降维】PCA主成分分析
        【机器学习】Graph-dual Laplacian principal component analysis(gDLPCA)
其中XX是中心化后的数据矩阵,VV是投影矩阵。

PCA的局限性:

  • PCA只能识别线性子空间,不能发现非线性数据流行数据。
  • 主成分的解释可能会很困难,虽然主成分分析确定的维度是作为原始特征空间的线性组合构成的不相关变量,但它们仍然没有物理意义。(为提高从PCA中提取主成分的可解释性,提出诸多变体,如:引入非负矩阵分解NMF,或采用稀疏非零载荷的SPCA)
  • 对异常值敏感

gLPCA

        【机器学习】Graph-dual Laplacian principal component analysis(gDLPCA)
其中λ\lambda为正则化参数,L=DWL=D-W
上式固定Y,对V求导:
【机器学习】Graph-dual Laplacian principal component analysis(gDLPCA)
从而:V=XYTV^*=X*Y^T,带回目标函数得到:

【机器学习】Graph-dual Laplacian principal component analysis(gDLPCA)
可做以下变换:
【机器学习】Graph-dual Laplacian principal component analysis(gDLPCA)
所以将目标函数转化为以下最小化公式:
【机器学习】Graph-dual Laplacian principal component analysis(gDLPCA)
Ga=XTX+λLG_a=-X^TX+\lambda L,于是最优的YY就是GaG_a的前r个最小特征值对应的特征向量组成的矩阵。

注:这里的X已经中心化

gLPCA的局限性:

  • 仍然对异常值敏感
  • 只考虑到数据流形,忽略特征流行

gDLPCA

XRdnX∈R^{d*n}dd表示特征数,nn表示样本数,xix_i表示一列(第ii个样本),xjx^j表示一行(第jj个特征)

  1. 首先,同样与gLPCA,构造样本图Gd=(XT,Wd)G^{d}=(X^T,W^d)
    【机器学习】Graph-dual Laplacian principal component analysis(gDLPCA)
    其中Nk(xi)N_k(x_i)表示xix_i的k近邻的集合。对应的样本图拉普拉斯矩阵为Ld=DdWd,Dd=jiWijdL^d=D^d-W^d,D^d=\sum_{j≠i}W_{ij}^d
  2. 其次,对于{(x1)T,(x2)T,...,(xd)T{(x^1)^T,(x^2)^T,...,(x^d)^T}}构造特征图Gf=(XT,Wf)G^{f}=(X^T,W^f)
    【机器学习】Graph-dual Laplacian principal component analysis(gDLPCA)
    其中Nk(xj)N_k(x^j)表示xjx^j的k近邻的集合。对应的特征图拉普拉斯矩阵为Lf=DfWf,Df=jiWijfL^f=D^f-W^f,D^f=\sum_{j≠i}W_{ij}^f
  3. gDLPCA
    【机器学习】Graph-dual Laplacian principal component analysis(gDLPCA)
    其中,α,β>0\alpha ,\beta>0都是正则化参数。当α=0\alpha=0时,就是gLPCA,当α=0,β=0\alpha=0 ,\beta=0时,就是PCA。

注意:由于上面目标函数的最优解(V,Y)(V,Y)是不唯一的,因为上式中的迹函数的正交不变性,也就是说,(V,Y)(V,Y)是最优解,只有 (VQ,QTY)(VQ,Q^TY)对于任意正交矩阵QQ也是最优解时,才成立,说明如下:

目标函数的第一项可以表示为:
【机器学习】Graph-dual Laplacian principal component analysis(gDLPCA)
目标函数的第二项可以表示为:
【机器学习】Graph-dual Laplacian principal component analysis(gDLPCA)
显然 (VQ,QTY)(VQ,Q^TY)是最优解。

优化求解

目标函数的第一项,可被转化为:
【机器学习】Graph-dual Laplacian principal component analysis(gDLPCA)
带回目标函数得到:
【机器学习】Graph-dual Laplacian principal component analysis(gDLPCA)
等价于:
【机器学习】Graph-dual Laplacian principal component analysis(gDLPCA)
所以,可以通过求Lα,βL_{\alpha,\beta}的前r个最小特征值,和对应的特征向量,就可以得到最优的VV
为了计算稳定性,协方差矩阵XXTXX^T的最大特征值(赋值给wnw_n)用于规范化XXTXX^T,特征图拉普拉斯矩阵LfL^f的最大特征值(赋值给αn\alpha_n)用于规范LfL^f,数据散度矩阵XLdXTXL^dX^T的最大特征值(赋值给βn\beta_n)用于规范化XLdXTXL^dX^T
假设:
【机器学习】Graph-dual Laplacian principal component analysis(gDLPCA)
于是得到:
【机器学习】Graph-dual Laplacian principal component analysis(gDLPCA)

【机器学习】Graph-dual Laplacian principal component analysis(gDLPCA)

gDLPCA算法

【机器学习】Graph-dual Laplacian principal component analysis(gDLPCA)