您的位置: 首页 > 文章 > PCA主成分分析

PCA主成分分析

分类: 文章 • 2022-10-12 00:13:34

PCA主成分分析

PCA(Principal Component Analysis,主成分分析)：
把数据从原来的坐标系转换到新的坐标系,新坐标系的选择由数据本身决定。

如 PCA 主成分分析的应用领域包括：股票交易市场数据的探索性分析、生物信息学领域的基因组和基因表达水平数据分析等。PCA 可以帮助我们识别出基于特征之间的关系识别出数据内在的模式。

从数学层面理解，PCA 的目标就是在高维数据中找到最大方差的方向，并将数据映射到一个维度不大于原始数据的新的子空间上。

如下图以 x1 和 x2 为原始特征建立坐标轴，而 PC1 和 PC2 是两个正交方向的新特征坐标，以新特征坐标是相互正交的为约束条件，新的子空间上正交的坐标轴（主成分）可被解释为方差最大方向。

PCA主成分分析

第一个新坐标轴选择的是原始数据中方差最大的方向，第二个新坐标轴选择和第一个坐标轴正交且具有方差次大的方向。此过程一直重复，重复次数为原始数据中特征的数目。大部分方差都集中在最前面的几个新坐标轴中。因此，可以忽略余下的坐标轴，即对数据进行了降维处理。

PCA 优缺点：

优点：降低数据的复杂性, 识别最重要的多个特征
缺点：不一定需要, 且可能损失有用信息

1、内积与投影

PCA主成分分析

2、基向量

PCA主成分分析

3、求向量在新基下的坐标

PCA主成分分析

4、投影的矩阵表示

PCA主成分分析

5、如何选择 r 个基向量？

PCA主成分分析

6、分散程度度量：方差

数据分布越分散，信息量越大，降维处理中为了减少信息损失，投影要尽量去均值分散。这种分散程度，用方差度量。方差是用来描述一维数据的。
PCA主成分分析
二维降成一维，就是找使得方差最大的那个方向。

7、协方差

PCA主成分分析

8、协方差矩阵

PCA主成分分析

9、基变换后的数据Y

PCA主成分分析

10、优化目标：协方差矩阵对角化

（1）假设 D 是新空间下的 Y 的协方差矩阵：
PCA主成分分析

11、降维结果：低维空间投影

PCA主成分分析

12、PCA思想

PCA主成分分析

13、PCA算法流程

PCA主成分分析

14、PCA实例

PCA主成分分析