PCA主成分分析

PCA主成分分析

PCA(Principal Component Analysis,主成分分析): 
把数据从原来的坐标系转换到新的坐标系,新坐标系的选择由数据本身决定。

如 PCA 主成分分析的 应用领域包括:股票交易市场数据的探索性分析、生物信息学领域的基因组和基因表达水平数据分析等。PCA 可以帮助我们识别出基于特征之间的关系识别出数据内在的模式。

从 数学层面理解,PCA 的目标就是在高维数据中找到最大方差的方向,并将数据映射到一个维度不大于原始数据的新的子空间上。

如下图以 x1 和 x2 为原始特征建立坐标轴,而 PC1 和 PC2 是两个正交方向的新特征坐标,以新特征坐标是相互正交的为约束条件,新的子空间上正交的坐标轴(主成分)可被解释为方差最大方向。

PCA主成分分析

第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴选择和第一个坐标轴正交且具有方差次大的方向。此过程一直重复,重复次数为原始数据中特征的数目。大部分方差都集中在最前面的几个新坐标轴中。因此,可以忽略余下的坐标轴,即对数据进行了降维处理。

PCA 优缺点:

  • 优点:降低数据的复杂性, 识别最重要的多个特征
  • 缺点:不一定需要, 且可能损失有用信息

1、内积与投影

PCA主成分分析 
PCA主成分分析

2、基向量

PCA主成分分析 
PCA主成分分析

3、求向量在新基下的坐标

PCA主成分分析 
PCA主成分分析

4、投影的矩阵表示

PCA主成分分析 
PCA主成分分析

5、 如何选择 r 个基向量?

PCA主成分分析

6、分散程度度量:方差

数据分布越分散,信息量越大,降维处理中为了减少信息损失,投影要尽量去均值分散。这种分散程度,用方差度量。方差是用来描述一维数据的。 
PCA主成分分析 
二维降成一维,就是找使得方差最大的那个方向。

7、协方差

PCA主成分分析

8、协方差矩阵

PCA主成分分析 
PCA主成分分析

9、基变换后的数据Y

PCA主成分分析

10、优化目标:协方差矩阵对角化

(1)假设 D 是新空间下的 Y 的协方差矩阵: 
PCA主成分分析 
PCA主成分分析 
PCA主成分分析

11、降维结果:低维空间投影

PCA主成分分析

12、PCA思想

PCA主成分分析

13、PCA算法流程

PCA主成分分析 
PCA主成分分析

14、PCA实例

PCA主成分分析 
PCA主成分分析 
PCA主成分分析