主成分分析的计算方法
主成分分析(Principal Component Analysis,PCA),是通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。通俗的讲就是将分布在多个维度的高维数据投射到几个轴上。现假设将二维数据投影到一个轴上。如图所示,图中黑色的点表示二维平面中的点,这些点沿L轴的方差最大,因此可以将二维的点投影到L轴上,从二维变成一维,起到了降维的作用。
PCA的计算方法如下:
1、假设由数据的特征和记录构成二维矩阵X0,即X0的一列表示一个特征,一行表示一条记录(一个示例),X0是一个m行n列的矩阵。
2、计算X0的转置X。X为n行m列的矩阵。
3、计算X任意两行之间的协方差,得到一个n行n列的协方差矩阵CovX。
4、求CovX的特征值和特征向量,得到n个特征值和一个n行n列的特征向量矩阵V0。
5、根据n个特征值的大小,降序排序,取最大的k个特征值,并取这k个特征值对应的特征向量,得到一个k行n列的特征向量矩阵V。
6、将k行n列的特征向量V与n行m列的矩阵X相乘,得到k行m列的矩阵Y0。
7、将Y0进行转置就得到m行k列的矩阵Y,这个矩阵Y就是包含k个主要成分的数据。