您的位置: 首页 > 文章 > 机器学习相关--PCA主成分分析

机器学习相关--PCA主成分分析

分类: 文章 • 2023-04-08 00:07:12

特征降维的方法

为什么要降维？
- 通常处理的数据是多维的，算法的时间复杂度跟维数成指数级增加。

维数达上千万维，称为维数灾难，往往就需要进行降维处理。

降维的作用？
- 数据降维：

1.使数据集更容易使用；

2.降低算法的计算开销；

3.去除噪声；

4.减轻过拟合；

5.易于获取有价值的信息.

数据降维方法众多，需根据特定问题选用合适的数据降维方法

降维处理的相关问题？
- 考虑会丢失信息吗？
- 考虑属性之间的相关性？
- 降维的同时减少信息的损失
降维的方法
- 特征选择：从原始的特征中挑选最具有代表性的一些特征
- 特征提取：用变换（映射）的方法，吧原始特征变换为较少的新特征。由原始数据创建新的特征集成为特征提取。
PCA主成分分析
- 把数据从原来的坐标系变化到新的坐标系，新的坐标系的选择由数据本身决定
- PCA的应用领域：
  - 股票交易市场数据的探索性分析、生物信息学领域的基因组和基因表达水平数据分析等。PCA 可以帮助我们识别出基于特征之间的关系识别出数据内在的模式。
- 从数学层面理解PCA：
  - PCA 的目标就是在高维数据中找到最大方差的方向，并将数据映射到一个维度不大于原始数据的新的子空间上。寻找最大的方差方向就是信息的保留量（信息论）
PCA 优缺点：

优点：降低数据的复杂性, 识别最重要的多个特征

缺点：不一定需要, 且可能损失有用信息

PCA算法流程

输入：m个n维数据集；

输出：m个n维数据集（r<n）；

(1)将m行n列数据集按列（特征）进行去均值化后为X；

(2)求协方差矩阵

机器学习相关--PCA主成分分析

(3)求协方差矩阵C的特征值和特征向量；

(4)将特征向量按照特征值从大到小的顺序，从左到右排成矩阵，并取前r个组成P；

(5)Y=XP即为降维到r维后的数据

机器学习相关--PCA主成分分析

PCA实例

有 5 个二维的样本，降到一维，数据矩阵如下

机器学习相关--PCA主成分分析

机器学习相关--PCA主成分分析

机器学习相关--PCA主成分分析

PCA处理后的手写体识别

机器学习相关--PCA主成分分析

机器学习相关--PCA主成分分析

这里面我们将原始的 8*8=64 维度的数据压缩到只有两个维度的特征空间，

依然可以发现绝大多数数字之间可以区分清楚。

PCA总结以及与LDA的区别和联系
- 总结
  - 降维/压缩问题则是选择数据具有代表性的特征，在保持数据多样性的基础

上，规避掉大量的特征冗余和噪声，不过这个过程也很有可能会损失一些有用的

模式信息。经过大量的实践证明，相比较损失的少部分模型性能，维度压缩能够节省大量用于模型训练的时间，这样一来 PCA 所带来的模型综合效率变得更为划算。

LDA 的概念与 PCA 区别与联系
- PCA 试图在数据集中找到方差最大的正交主成分量的轴，而 LDA 的目

标是发现可以最优化分类的特征子空间。 LDA 和 PCA 都是可以降低数据集维度的

线性转化技巧。

- PCA 是一种无监督算法（不需要类标签的参与），而 LDA 是监督算法。
- 在图像识别某些情况下，如每个类别中只有少量样本使用 PCA 最为预

处理工具的分类结果更佳。

END