PCA主成分分析
PCA主成分分析
PCA(Principal Component Analysis,主成分分析):
把数据从原来的坐标系转换到新的坐标系,新坐标系的选择由数据本身决定。
如 PCA 主成分分析的 应用领域包括:股票交易市场数据的探索性分析、生物信息学领域的基因组和基因表达水平数据分析等。PCA 可以帮助我们识别出基于特征之间的关系识别出数据内在的模式。
从 数学层面理解,PCA 的目标就是在高维数据中找到最大方差的方向,并将数据映射到一个维度不大于原始数据的新的子空间上。
如下图以 x1 和 x2 为原始特征建立坐标轴,而 PC1 和 PC2 是两个正交方向的新特征坐标,以新特征坐标是相互正交的为约束条件,新的子空间上正交的坐标轴(主成分)可被解释为方差最大方向。
第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴选择和第一个坐标轴正交且具有方差次大的方向。此过程一直重复,重复次数为原始数据中特征的数目。大部分方差都集中在最前面的几个新坐标轴中。因此,可以忽略余下的坐标轴,即对数据进行了降维处理。
PCA 优缺点:
- 优点:降低数据的复杂性, 识别最重要的多个特征
- 缺点:不一定需要, 且可能损失有用信息
1、内积与投影
2、基向量
3、求向量在新基下的坐标
4、投影的矩阵表示
5、 如何选择 r 个基向量?
6、分散程度度量:方差
数据分布越分散,信息量越大,降维处理中为了减少信息损失,投影要尽量去均值分散。这种分散程度,用方差度量。方差是用来描述一维数据的。
二维降成一维,就是找使得方差最大的那个方向。
7、协方差
8、协方差矩阵
9、基变换后的数据Y
10、优化目标:协方差矩阵对角化
(1)假设 D 是新空间下的 Y 的协方差矩阵:
11、降维结果:低维空间投影
12、PCA思想
13、PCA算法流程
14、PCA实例