主成分分析(PCA)

PCA是一种降维的方法，用于将样本从较高的N维投影到较低的K维，PCA认为最好的K维空间是将样本点转换为K维后，每一维的样本方差都很大，方差较大保证了样本点在K维空间构成的超平面上的投影能尽可能的分开。

那么如何能找到符合条件的K维空间了？下面以将样本投影到某一维上为例：
首先对所有的样本进行中心化，即将样本减去他们的均值，

主成分分析(PCA)

上图中 $X_{i}$ 为其中一个样本点，将 $X_{i}$ 投影到 $u （ | | u | | = 1 ）$ 上

由于样本点已经进行中心化，所以其每一维特征均值都是0，因此投影到 $u$ 上的样本点的均值仍然是0。最佳的 $u$ 要使得投影后的样本点方差最大，方差可以用下面式子计算：

$\frac{1}{m} \sum_{i = 1}^{m} (X_{i}^{T} u)^{2} = \frac{1}{m} \sum_{i = 1}^{m} u^{T} X_{i} \cdot X_{i}^{T} u = u^{T} \cdot (\frac{1}{m} \sum_{i = 1}^{m} X_{i} \cdot X_{i}^{T}) \cdot u$

令 $λ = \frac{1}{m} \sum_{i = 1}^{m} (X_{i}^{T} u)^{2}$ ， $\sum = \frac{1}{m} \sum_{i = 1}^{m} X_{i} \cdot X_{i}^{T}$ （X的协方差矩阵为 $\frac{1}{m - 1} \sum_{i = 1}^{m} X_{i} \cdot X_{i}^{T}$ ）
则：
$λ = u^{T} \sum u$
$⟹$ $λ u = u λ = u \cdot u^{T} \sum u = \sum u$
$⟹$ $λ u = \sum u$

$λ$ 是 $\sum$ 的特征值， $u$ 是特征向量。最佳投影直线是特征值 $λ$ 最大时对应的特征向量，其次是 $λ$ 第二大对应的特征向量，以此类推。

所以PCA算法如下：
输入：样本集 $D = {X_{1}, X_{2}, . . ., X_{i}, . . ., X_{m}}, 低维空间维数 K$
过程：1.对所有样本进行中心化： $X_{i} ⟵ X_{i} - \frac{1}{m} \sum_{i = 1}^{m} X_{i}$
           2.计算样本的协方差矩阵 $X X^{T}$
           3.对协方差矩阵 $X X^{T}$ 做特征值分解
           4.取最大的K个特征值所对应的特征向量 $W_{1}, W_{2}, . . ., W_{k}$
输出：投影矩阵 $W^{*} = (W_{1}, W_{2}, . . ., W_{k})$
将原数据与投影矩阵相乘即得到降维后的数据

由于数据进行了中心化，且协方差矩阵是对称的，所以 $W_{i}$ 是标准正交基向量, $| W_{i} | = 1, W_{i}^{T} W_{j} = 0$

参考书籍：《机器学习》

相关推荐